CN108536654A - 识别文本展示方法及装置 - Google Patents
识别文本展示方法及装置 Download PDFInfo
- Publication number
- CN108536654A CN108536654A CN201810330612.5A CN201810330612A CN108536654A CN 108536654 A CN108536654 A CN 108536654A CN 201810330612 A CN201810330612 A CN 201810330612A CN 108536654 A CN108536654 A CN 108536654A
- Authority
- CN
- China
- Prior art keywords
- participle
- text
- identification
- division
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种识别文本展示方法及装置,属于语音识别和自然语言处理技术领域。方法包括:获取识别文本中每一分词的分类特征;将每一分词的分类特征输入至分类模型,输出每一分词的分类标记,分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况;根据每一分词的分类标记,确定每一分词的展示方式,并基于每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中文本内容的同时,还可以通过展示方式来体现分词在识别文本中的重要程度和/或在识别文本中的异常情况,从而承载发言人发言时的情感色彩和/或发言时的语义。因此,满足了发言人个性化展示其发言的需求。
Description
技术领域
本发明实施例涉及语音识别和自然语言处理技术领域,更具体地, 涉及一种识别文本展示方法及装置。
背景技术
近年来,随着语音技术的飞速发展,语音识别技术凭借其智能、 高效和人性化的优势,被广泛应用于生产、生活的各个领域,越来越 受到大众的欢迎。
目前的语音识别技术,其目标是将语音数据转换为文本进行展示, 一般通篇采用同一种格式,形式显得单一刻板。通过现有技术获取的 识别文本,仅通过固定的展现形式,无法直观地为用户展现语音数据 的关键信息,缺乏针对语音数据的个性化展示形式。因此,如何对识 别文本进行个性化展示,仍是目前业界亟待解决的课题。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至 少部分地解决上述问题的一种识别文本展示方法及装置。
根据本发明实施例的第一方面,提供了一种识别文本展示方法, 该方法包括:
获取识别文本中每一分词的分类特征,识别文本是对语音数据进 行语音识别后得到的;
将每一分词的分类特征输入至分类模型,输出每一分词的分类标 记,分类标记用于表示分词在识别文本中的重要程度和/或在识别文本 中的异常情况;
根据每一分词的分类标记,确定每一分词的展示方式,并基于每 一分词的展示方式对识别文本中每一分词进行展示。
本发明实施例提供的方法,通过获取识别文本中每一分词的分类 特征,将每一分词的分类特征输入至分类模型,输出每一分词的分类 标记。根据每一分词的分类标记,确定每一分词的展示方式,并基于 每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识 别文本中文本内容的同时,还可以通过展示方式来体现分词在识别文 本中的重要程度和/或在识别文本中的异常情况,从而承载发言人发言 时的情感色彩和/或发言时的语义。因此,满足了发言人个性化展示其 发言的需求。
根据本发明实施例的第二方面,提供了一种识别文本展示装置, 该装置包括:
特征获取单元,用于获取识别文本中每一分词的分类特征,识别 文本是对语音数据进行语音识别后得到的;
分类获取单元,用于将每一分词的分类特征输入至分类模型,输 出每一分词的分类标记,分类标记用于表示分词在识别文本中的重要 程度和/或在识别文本中的异常情况;
展示单元,用于根据每一分词的分类标记,确定每一分词的展示 方式,并基于每一分词的展示方式对识别文本中每一分词进行展示。
根据本发明实施例的第三方面,提供了一种识别文本展示设备, 包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令 能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所 提供的识别文本展示方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质, 非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执 行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的 识别文本展示方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解 释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种识别文本展示方法的流程示意图;
图2为本发明实施例的一种识别文本展示装置的框图;
图3为本发明实施例的一种识别文本展示设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一 步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发 明实施例的范围。
目前在对语音识别结果进行展示时,通常是对语音数据进行语音 识别,再采用固定的形式直接对识别文本进行展示。由于采用固定的 形式对识别文本进行展示,从而导致展示形式较为单一。而人在发言 时,除了发言的内容之外,发言的声音可能会带有情感色彩,发言的 内容中可能会有一些特定语义。因此,目前存在基于上述因素,对识 别文本进行个性化展示的需求。基于该需求,本发明实施例提供了一 种识别文本展示方法,该方法可以用于语音识别场景,也可以用于需 要用到语音识别的其它场景,如直播时的字幕显示,本发明实施例对 此不作具体限定。参见图1,该方法包括:
101,获取识别文本中每一分词的分类特征,识别文本是对语音数 据进行语音识别后得到的。
在执行步骤101之前,可先获取语音数据,如通过会议录音、采 访录音获取语音数据。在获取到语音数据后,可对语音数据进行识别 得到识别文本。由于获取到的语音数据可能是包含多位发言人的发言, 从而在执行步骤101之前,可先对语音数据进行端点检测,分别确定 多个语音段的起始点和结束点。根据每一语音段的起始点和结束点, 即可得到多个语音段。其中,每一语音段即对应一位发言人的一次发 言,后续可将每一语音段作为语音识别的处理对象。为了便于说明, 以语音数据不包含多位发言人的发言,而是包含一位发言人的一次发 言为例,可先对该语音数据进行特征提取,如提取MFCC(Mel FrequencyCepstrum Coefficient,MFCC)特征;再利用提到的特征及预 先训练的声学模型和语言模型进行解码操作;最后根据解码结果得到 该语音数据对应的识别文本。
在上述步骤101中,分类特征可以用于表征识别文本中分词在语 音上的感情色彩和/或文本内容上的语义。例如,对于任一分词,若分 类特征用于表征语音的感情色彩,则该分词的分类特征可以包括语音 数据的强度等信息;若分类特征用于表征文本内容的语义,则该分词 的分类特征可包括该分词的词性等信息。基于上述内容,在获取识别 文本中分词的分类特征时,可通过语音数据分析和/或分词语义解析的 方式获取,本发明实施例对此不作具体限定。
在获取识别文本中分词的分类特征时,可以是以识别文本中分词 的前后文语义作为依据,也可以是以分词在语音数据中对应的语音段 的音高、音强、音长或音色等语音要素作为依据,还可以是两种依据 相互结合,本发明实施例对此不作具体限定。
102,将每一分词的分类特征输入至分类模型,输出每一分词的分 类标记,分类标记用于表示分词在识别文本中的重要程度和/或在识别 文本中的异常情况。
在步骤102中,分类标记用于表示分词在识别文本中的重要程度 和/或在识别文本中的异常情况。对于任一分词,关于该分词对应的分 类标记的类型及数量,本发明实施例对此不作具体限定。例如,该分 词可以只具有表示分词在识别文本中重要程度的分类标记,或者只具 有表示分词在识别文本中异常情况的分类标记,又或者两者同时具有。 另外,分类标记可通过字符串表示,如中文词语,也可以为单个字符 表示,如数字,本发明实施例对此也不作具体限定。
以分类标记通过字符串表示为例,若分类标记用于表示分词在识 别文本中的重要程度,则分类标记可分别为“普通”、“强调”或“特 别强调”等。其中,“普通”表示分词在识别文本中的重要程度最低; “强调”表示分词在识别文本中的重要程度较高;“特别强调”表示 分词在识别文本中的重要程度最高。
若分类标记用于表示分词在识别文本中的异常情况,则分类标记 可分别为“正常”、“异常”或“严重异常”等。其中,“正常”表示 分词本身无误且与符合识别文本中的语境;“异常”表示分词本身有 可能存在错误或不符合识别文本中的语境;“严重异常”表示分词本 身可能存在错误或不符合识别文本中的语境,且这种可能性较高。
需要说明的是,由上述内容可知,本发明实施例不对识别文本中 的任一分词其分类标记的类型及数量作具体限定。结合上述内容,该 分词的分类标记可以仅为“普通”,或者仅为“异常”,或者同时具有“普 通”、“正常”这两种分类标记。
另外,本发明实施例不对分类模型的训练方式作具体限定,具体 可通过如下方式训练得到:首先,收集大量样本语音数据,并对样本 语音数据进行语音识别,得到样本识别文本。接着,获取样本识别文 本中每一分词的样本分类特征,并提前标注样本识别文本中每一分词 的分类标记。最后,基于样本识别文本中每一分词的分类标记以及样 本识别文本中每一分词的样本分类特征对初始模型进行训练,从而得 到分类模型。其中,初始模型优选为深度学习模型,如长短期记忆网 络模型或双向长短期记忆网络模型,本发明实施例不对初始模型的类 型作具体限定。
103,根据每一分词的分类标记,确定每一分词的展示方式,并基 于每一分词的展示方式对识别文本中每一分词进行展示。
由上述步骤102的内容可知,分类标记的类型以及具体表示的含 义是确定的。为了便于根据分类标记确定分词的展示方式,可预先建 立分类标记与展示方式的对应关系,从而在本步骤中可基于预先确定 的对应关系以及每一分词的分类标记,来确定每一分词的展示方式。 在确定每一分词的展示方式后,即可基于每一分词的展示方式对识别 文本中每一分词进行展示。
例如,通过加粗字体以展示分类标记为“强调”的分词,通过加 粗并增大字号以展示分类标记为“特别强调”的分词。又例如,通过 将字体颜色设置为红色以展示分类标记为“异常”的分词,通过将字 体颜色设置为红色并在分词上增加删除线以展示分类标记为“严重异 常”的分词。
本发明实施例提供的方法,通过获取识别文本中每一分词的分类 特征,将每一分词的分类特征输入至分类模型,输出每一分词的分类 标记。根据每一分词的分类标记,确定每一分词的展示方式,并基于 每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识 别文本中文本内容的同时,还可以通过展示方式来体现分词在识别文 本中的重要程度和/或在识别文本中的异常情况,从而承载发言人发言 时的情感色彩和/或发言时的语义。因此,满足了发言人个性化展示其 发言的需求。
由上述实施例的内容可知,分类特征可以用于表征识别文本中分 词在语音上的感情色彩和/或文本内容上的语义。基于上述实施例的内 容,作为一种可选实施例,分类特征包括声学分类特征和/或语义分类 特征。
其中,声学分类特征是指基于语音数据获取的,且可用于表征发 言人发言时的个性化特征。具体地,发言人发言时的个性化特征可以 为发言人发言时的语气或语调,也可以为发言人发言时的语速或前后 停顿时长,本发明实施例对此不作具体限定。以发言人发言时的前后 停顿时长为例,若发言人的发言中某分词在语音数据中的前后停顿时 间较长,则说明发言人可能希望通过停顿以强调该分词。通过将分词 在语音数据中的前后停顿时长作为该分词的声学分类特征,可以用于 表征发言人强调该分词的意图,以体现该分词的重要程度,并后续可 体现至该分词的展示方式上。
语义分类特征是指根据识别文本获取的,且用于表征识别文本中 分词在发言人发言中的语义及语境特征和/或分词在识别文本中的上下 文特征。以分词在发言人发言中的语义为例,由于从语义角度上,发 言人在发言时通常会有确定的主题,从而发言人的发言中有些分词会 是关键词。若提前将识别文本中为关键词的分词进行标识,并将关键 词表示作为该分词的语义分类特征,则可凸显发言人发言时的主题, 并后续可体现至该分词的展示方式上。
本发明实施例提供的方法,由于分类特征可包括声学分类特征和/ 或语义分类特征,在表征分词在语音上的感情色彩的同时,还可表征 分词在文本内容上的语义,从而后续可更加准确地获取分类标记。另 外,后续对分词进行展示时,展示方式能够更好地承载发言时的感情 色彩和/或语义,从而进一步满足了发言人个性化展示其发言的需求。
基于上述实施例的内容,作为一种可选实施例,对于识别文本中 的任一分词,该分词的声学分类特征至少包括以下四种信息中的任意 一种,以下四种信息分别为该分词在语音数据中对应的语音段能量、 该分词在语音数据中对应的语音段时长,该分词对应的语音段与该分 词的前一个分词对应的语音段之间的时间间隔、该分词对应的语音段 与该分词的后一个分词对应的语音段之间的时间间隔。
其中,语音段能量的高低能够在一定程度上反映用户在讲该分词 时的声强、响度和音高等特征。通常,发言人会通过提高声音或者加 重语气来提示听众注意当前的发言内容,从而可将语音能量作为分词 的声学分类特征,以作为后续确定分词在识别文本中的重要程度(即 分类标记)的依据。
语音段能量的获取方法有多种,例如根据任一分词的识别边界 获取该识别边界对应的语音段内的声学特征,并利用上述声 学特征计算该分词在语音数据中对应的语音段的能量。其中,和分 别为分词wi在语音数据中对应的语音段的起始时间和结束时间。此处, 可以通过filter bank提取语音段内的声学特征,但不限于此。
语音段时长是指分词对应的的语音数据中的语音段的时间长度。 例如分词wi的识别边界为则分词wi的语音段时长为通 常,发言人在讲述关键内容或者能够引起听众共鸣和互动的内容时, 会放慢语速,在讲述非重要内容或者和前述内容重复的内容时,会加 快语速。此外,发言人在加快语速讲述的情况下,出现口误的概率也 高于放慢语速讲述的情况,从而可将语音段时长作为分词的声学分类 特征,以作为后续确定分词在识别文本中的重要程度和/或异常情况(即 分类标记)的依据。
当任一分词wi的识别边界为该分词的前一个分词wi-1的识 别边界为该分词wi的后一个分词wi+1的识别边界为时, 该分词wi对应的语音段与wi的前一个分词wi-1对应的语音段之间的时 间间隔为任一分词wi对应的语音段与wi的后一个分词wi+1对应 的语音段之间的时间间隔为通常在发言过程中,发言人会通过 分词间的停顿来强调分词表达的内容,或者通过分词间的停顿指示发 言内容的转折。此外,任一分词对应的语音段与该分词的前一个分词 和/或后一个分词对应的语音段之间的时间间隔较长,可能是由于发言 人在发言过程中存在口误,导致了发言内容的不连贯,从而,可将任 一分词对应的语音段与前一个分词和/或后一个分词对应的语音段之间的时间间隔作为该分词的声学分类特征,以作为后续确定分词在识别 文本中的重要程度和/或异常情况(即分类标记)的依据。
基于上述实施例的内容,作为一种可选实施例,一种识别文本展 示方法,任一分词的语义分类特征至少包括以下八种信息中的任意一 种,八种信息分别为该分词的词向量、该分词的情感极性、该分词的 词性、高分词在识别文本中出现的频率、该分词的关键词标识、该分 词在文档分页对应的文本中出现的频率、该分词在文档分页中的显示 字体大小,以及该分词的特殊符号标识;其中,文档分页对应的文本 包含识别文本对应的文本内容。
其中,词向量,即分词对应的向量表示,通常用于自然语言处理 领域。词向量可以根据预先生成的词向量表查表获取,也可以通过 word2vec等现有的词训练模型获取,并不限于此。本发明实施例中, 由于词向量表达了识别文本中分词的语义,可将词向量作为分词的语 义分类特征,以作为后续确定分词在识别文本中的重要程度和/或异常 情况(即分类标记)的依据。
情感极性是通过分析识别文本,获取的语音数据所表达的情感信 息。任一分词的情感极性是指该分词所在识别文本中分句的情感极性。 通常,情感极性可以分为正向、中性和负向三种,并存在多种表示方 式,例如通过“1”、“0”和“-1”对应表示正向、中性和负向,本发明 实施例对此不作具体限定。
情感极性的获取方法有多种,例如基于情感词典、否定词典、程 度副词词典和停用词典等对识别文本中每一语句中的每一分词进行打 分,并计算每一语句中分词的分数之和,根据每一语句中分词的分数 之和获取每一语句的情感极性;又例如基于情感词典、否定词典、程 度副词词典和停用词典等提取识别文本每一语句中的情感词特征,并 输入预先构建的情感极性分类模型,对每一语句进行情感极性预测, 并根据情感极性分类模型输出的结果获取每一语句的情感极性,对此 本发明实施例不作具体限定。通常,发言人在发言过程中,会将感情 色彩融入表述用词,以便于向听众展示自身的主观意见,因而,可将情感极性作为语义分类特征,以作为后续确定分词在识别文本中的重 要程度(即分类标记)的依据。
词性为以词的特点作为划分词类的根据,例如现代汉语共分为两 类14中词性,一类是实词,包括名词、动词、形容词、区别词、代词、 数词和量词,另一类是虚词,包括词、介词、连词、助词、语气词、 拟声词和叹词。词性可以通过现有的分词工具直接获取,但不限于此。 在识别文本中,不同词性的同一分词可能包含不同的语义,表征不同 的情感。例如,语句A“这部电影真垃圾”中分词“垃圾”词性是形 容词,语句B“垃圾分类”中分词“垃圾”是名词,语句A中分词“垃 圾”表现强烈的贬义,语句B中分词“垃圾”表示中性,因而,可将 词性作为语义分类特征,以作为后续确定分词在识别文本中的重要程 度(即分类标记)的依据。
通常发言人在发言过程中频繁使用的词语可能是发言内容的主题 或者发言强调的重点,因而,任一分词在识别文本中出现的频率在一 定程度上表征了该分词在语音数据中的重要程度,可将该分词在识别 文本中出现的频率作为语义分类特征,以作为后续确定分词在识别文 本中的重要程度(即分类标记)的依据。需要说明的是,若识别文本 中任一分词为停用词,则将该分词在识别文本中出现的频率设置为0。 其中,停用词是指在处理自然语言数据之前或之后会自动过滤掉某些 无意义字或词。
分词的关键词标识为用于指示该分词是否为关键词的标识。可以 通过预先设定的关键词表,判断识别文本中任一分词是否为关键词, 并对应设置该分词的关键词标识。此处的关键词表可以包含语音数据 的主题或者重要程度较高的分词,还可以包含任意需要提示听众注意 的分词,且不限于此。例如,语音数据的主题是手机,语音数据中提 及的手机厂商均可列入关键词表。任一分词的关键词标识在一定程度 上表征了该分词在语音数据中的重要程度,因而,可将关键词标识作 为语义分类特征,以作为后续确定分词在识别文本中的重要程度(即 分类标记)的依据。
分词在文档分页对应的文本中出现的频率,和/或分词在文档分页 中的显示字体大小,同样在一定程度上表征了该分词在语音数据中的 重要程度。此处的文档分页指发言人在发言过程中讲述内容对应的文 档页面,例如发言人在对照ppt发言时,语音数据对应的ppt分页即文 档分页,又例如发言人在对照演讲稿发言人,语音数据对应的演讲稿 分页即文档分页。本发明实施例中,可以通过光学字符识别(Optical Character Recognition,OCR)技术实现对任一分词在文档分页对应的 文本中出现的频率和/或在文档分页中显示字体大小的提取。
通常,在文档中频繁出现的分词和/或字体较大的分词,均可能是 文档中重要程度较高的分词,因而,可将分词在文档分页对应的文本 中出现的频率,和/或分词在文档分页中的显示字体大小作为语义分类 特征,以作为后续确定分词在识别文本中的重要程度(即分类标记) 的依据
特殊符号标识是用于指示该分词是否为特殊符号的标识。此处的 特殊符号包括数字、公式和数字符号等,例如“第1名”。可将特殊符 号标识作为语义分类特征,以作为后续确定分词在识别文本中的重要 程度(即分类标记)的依据。
本发明实施例中,从语音数据的语气、语速和停顿,以及识别文 本的语义、感情色彩、重要程度和出现频率等多个角度提取声学和/或 语义分类特征,以作为后续确定分词在识别文本中的重要程度和/或异 常情况(即分类标记)的依据从而后续可更加准确地获取分类标记。
基于上述实施例的内容,作为一种可选实施例,一种识别文本展 示方法,将每一分词的分类特征输入至分类模型,输出每一分词的分 类标记,包括:对于识别文本中的任一分词,将该分词的分类特征输 入至所述分类模型,输出该分词的分类标记;或者,将该分词的分类 特征、该分词的前一个分词对应的分类特征和该分词的后一个分词对 应的分类特征同时输入至分类模型,输出该分词的分类标记。
具体地,此处的分类模型为预先训练好的,以识别文本中任一分 词的分类特征为输入,或以识别文本中任一分词的分类特征、该分词 的前一个分词的分类特征和该分词的后一个分词的分类特征为输入, 对该分词进行分类并输出对应的分类标记的模型。需要说明的是,将 识别文本中任一分词的分类特征、该分词的前一个分词的分类特征和 该分词的后一个分词的分类特征输入分类模型的分类方法,相比仅将 该分词的分类特征输入分类模型的分类方法,在将该分词的分类特征 作为分类依据的基础上,还将该分词的上下文语义作为分类依据,使 得分类模型输出的该分词的分类标记能够更加准确地表示该分词在识 别文本中的重要程度和/或异常情况。此处,分类模型优选为深度学习 模型,例如长短期记忆网络和双向长短期记忆网络,本发明实施例不 对分类模型的类型作具体限定。
另外,本发明实施例不对分类模型的训练方式作具体限定,具体 可通过如下方式训练得到:首先,收集大量样本语音数据,并对样本 语音数据进行语音识别,得到样本识别文本。接着,获取样本识别文 本中每一分词的样本分类特征,并提前标注样本识别文本中每一分词 的分类标记。最后,基于样本识别文本中每一分词与该分词的前一个 分词和后一个分词各自的分类标记,以及样本识别文本中每一分词与 该分词的前一个分词和后一个分词各自的样本分类特征,对初始模型 进行训练,从而得到分类模型。
本发明实施例中,通过分类模型获取任一分词的分类标记,为根 据分类标记确定该分词的展示方式,进而实现识别文本的个性化展示 提供了条件。
考虑到识别文本中一些分词的表达形式可能不太符合用户的阅读 习惯,和/或识别文本中未能预先添加标点,这会降低识别文本的易读 性。基于上述实施例的内容,作为一种可选实施例,一种识别文本展 示方法,基于每一分词的展示方式对识别文本中每一分词进行展示之 前,还包括:基于预设表达规则,对识别文本中分词的表达形式进行 规整;和/或,获取识别文本中相邻分词之间的标点添加概率,若标点 添加概率大于预设阈值,则在相邻分词之间添加标点。
在上述第一种处理方式中,预设表达规则指代的是符合日常表达 习惯的词语表达形式。例如,由于在日常生活中,手机号、商品价格、 身份证号等用数字表示能够更加便于人们阅读,从而预设表达规则可 以具体地为“手机号、商品价格、身份证号等用数字表示而非用汉字 表示”。当识别文本中出现内容为数字且用汉字表示的分词时,可按照 预设表达规则,对识别文本中分词的表达形式进行规整。例如,十九 点五元,按照预设表达规则可表示为19.5元。
需要说明的是,预设表达规则不限于上述示例,还可以为“公式相 关的内容用公式表达而非用汉字表达”,本发明实施例对此不作具体限 定。例如,“三X加二Y等于十”实则为一个公式,按照预设表达规 则可表示为3X+2Y=10。
在基于预设表达规则对识别文本中分词的表达形式进行规整时, 可先从大量语料中整理总结出预设表达规则。基于ABNF文法规则为 每一种预设表达规则编写匹配策略,根据匹配策略即可从识别文本中 匹配出需要规整的分词。在确定识别文本中需要规整的分词后,可根 据每一种预设表达规则建立相应的处理函数,以用于规整识别文本。 其中,预设表达规则对应的规整目标类型可以为表示数量大小的数值 (如商品价格、商品数目等)、不分数量大小的字符串(如手机号、身 份证号、银行卡号等)、用于特征场景的数字表达式(如日期、时间、 数学公式等)等,本发明实施例对此不作具体限定。在上述第二种处理方式中,根据识别文本中相邻分词之间的标点添加概率,在相邻分 词之间添加标点。相邻分词之间的标点添加概率可以通过条件随机场 获取。其中,条件随机场(conditionalrandom fields,CRF),是一种判 别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自 然语言文字或是生物序列。作为优选,在设置标点添加概率的阈值时, 为提高标点添加的准确率,可以减小在语音段间添加标点的阈值,加 大在语音段中相邻分词间添加标点的阈值,从而增加在语音段间添加 标点的可能性,降低在语音段中添加标点的可能性。
本发明实施例中,通过规整表达形式和/或添加标点对识别文本进 行了预处理,有助于提高识别文本的易读性,优化用户体验感。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本 发明的可选实施例,在此不再一一赘述。
为了更好地理解与应用本发明提出的识别文本展示方法,现结合 上述实施例的内容,本发明以如下示例对识别文本的展示过程进行解 释说明,具体阐述如下:
首先,对语音数据进行语音识别,获取如下识别文本:二零一七 年是人工智能发展史上既有里程碑意义的一年不仅AI技术和算法得到 了快速发展人工智能更是上升为重要项目。
其次,对识别文本中分词的表达形式进行规整,将“二零一七年” 转换为“2017年”,并在相邻分词之间添加标点。经过预处理后的识别 文本如下:2017年是人工智能发展史上既有里程碑意义的一年,不仅 AI技术和算法得到了快速发展,人工智能更是上升为重要项目。
随后,获取上述识别文本中每一分词的分类特征,并根据分类模 型,对应获取每一分词的分类标记。此处,预设的分类标记包括“普 通”、“强调”和“异常”。识别文本中,分词“既有”的分类标记为 “异常”,分词“人工智能”和“重要项目”的分类标记为“强调”, 其余分词的分类标记为“普通”。
根据分类标记对应的展示方式,确定每一分词的展示方式。此处, 预设“普通”的展示方式为仿宋四号,“强调”的展示方式为黑体加粗 三号,“异常”的展示方式为仿宋删除线四号。据此,识别文本根据如 下展示方式进行展示:
2017年是人工智能发展史上既有里程碑意义的一年,不仅AI技术 和算法得到了快速发展,人工智能更是上升为重要项目。
本发明实施例中,通过获取识别文本中每一分词的分类特征,将 每一分词的分类特征输入至分类模型,输出每一分词的分类标记。根 据每一分词的分类标记,确定每一分词的展示方式,并基于每一分词 的展示方式对识别文本中每一分词进行展示。由于在展示识别文本中 文本内容的同时,还可以通过展示方式来体现分词在识别文本中的重 要程度和/或在识别文本中的异常情况,从而承载发言人发言时的情感 色彩和/或发言时的语义。因此,满足了发言人个性化展示其发言的需 求。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本 发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种识别文本展示 装置,该识别文本展示装置用于执行上述方法实施例中提供的识别文 本展示方法。参见图2,该装置包括:
特征获取单元201,用于获取识别文本中每一分词的分类特征,识 别文本是对语音数据进行语音识别后得到的;
分类获取单元202,用于将每一分词的分类特征输入至分类模型, 输出每一分词的分类标记,分类标记用于表示分词在识别文本中的重 要程度和/或在识别文本中的异常情况;
展示单元203,用于根据每一分词的分类标记,确定每一分词的展 示方式,并基于每一分词的展示方式对识别文本中每一分词进行展 示。
作为一种可选实施例,一种识别文本展示装置,分类特征包括声 学分类特征和/或语义分类特征。
作为一种可选实施例,一种识别文本展示装置,对于识别文本中 的任一分词,任一分词的声学分类特征至少包括以下四种信息中的任 意一种,四种信息分别为该分词在语音数据中对应的语音段能量、该 分词在语音数据中对应的语音段时长、该分词在语音数据中对应的语 音段与该分词的前一个分词在语音数据中对应的语音段之间的时间间 隔,以及该分词在语音数据中对应的语音段与该分词的后一个分词在 语音数据中对应的语音段之间的时间间隔;
任一分词的语义分类特征至少包括以下八种信息中的任意一种, 八种信息分别为该分词的词向量、该分词的情感极性、该分词的词性、 该分词在识别文本中出现的频率、该分词的关键词标识、该分词在文 档分页对应的文本中出现的频率、该分词在文档分页中的显示字体大 小,以及该分词的特殊符号标识;其中,文档分页对应的文本包含识 别文本对应的文本内容。
作为一种可选实施例,一种识别文本展示装置,分类获取单元用 于:对于识别文本中的任一分词,将该分词的分类特征、该分词的前 一个分词对应的分类特征和该分词的后一个分词对应的分类特征同时 输入至分类模型,输出该分词的分类标记。
作为一种可选实施例,一种识别文本展示装置,还包括预处理单 元;预处理单元用于:
基于预设表达规则,对识别文本中分词的表达形式进行规整;和/ 或,
获取识别文本中相邻分词之间的标点添加概率,若标点添加概率 大于预设阈值,则在相邻分词之间添加标点。
本发明实施例提供的装置,通过获取识别文本中每一分词的分类 特征,将每一分词的分类特征输入至分类模型,输出每一分词的分类 标记。根据每一分词的分类标记,确定每一分词的展示方式,并基于 每一分词的展示方式对识别文本中每一分词进行展示。由于在展示识 别文本中文本内容的同时,还可以通过展示方式来体现分词在识别文 本中的重要程度和/或在识别文本中的异常情况,从而承载发言人发言 时的情感色彩和/或发言时的语义。因此,满足了发言人个性化展示其 发言的需求。
其次,由于分类特征可包括声学分类特征和/或语义分类特征,在 表征分词在语音上的感情色彩的同时,还可表征分词在文本内容上的 语义,从而后续可更加准确地获取分类标记。另外,后续对分词进行 展示时,展示方式能够更好地承载发言时的感情色彩和/或语义,从而 进一步满足了发言人个性化展示其发言的需求。
再次,从语音数据的语气、语速和停顿,以及识别文本的语义、 感情色彩、重要程度和出现频率等多个角度提取声学和/或语义分类特 征,以作为后续确定分词在识别文本中的重要程度和/或异常情况(即 分类标记)的依据从而后续可更加准确地获取分类标记。
从次,通过分类模型获取任一分词的分类标记,为根据分类标记 确定该分词的展示方式,进而实现识别文本的个性化展示提供了条件。
另外,通过规整表达形式和/或添加标点对识别文本进行了预处理, 有助于提高识别文本的易读性,优化用户体验感。
本发明实施例提供了一种识别文本展示设备。参见图3,该设备 包括:处理器(processor)301、存储器(memory)302和总线303;
其中,处理器301及存储器302分别通过总线303完成相互间的 通信;处理器301用于调用存储器302中的程序指令,以执行上述实 施例所提供的识别文本展示方法,例如包括:获取识别文本中每一分 词的分类特征,识别文本是对语音数据进行语音识别后得到的;将每 一分词的分类特征输入至分类模型,输出每一分词的分类标记,分类 标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常 情况;根据每一分词的分类标记,确定每一分词的展示方式,并基于 每一分词的展示方式对识别文本中每一分词进行展示。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计 算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述 实施例所提供的识别文本展示方法,例如包括:获取识别文本中每一 分词的分类特征,识别文本是对语音数据进行语音识别后得到的;将 每一分词的分类特征输入至分类模型,输出每一分词的分类标记,分 类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异 常情况;根据每一分词的分类标记,确定每一分词的展示方式,并基 于每一分词的展示方式对识别文本中每一分词进行展示。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部 分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于 一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实 施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘 等各种可以存储程序代码的介质。
以上所描述的识别文本展示设备等实施例仅仅是示意性的,其中 作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术 人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方 法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明 实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任 何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之 内。
Claims (10)
1.一种识别文本展示方法,其特征在于,包括:
获取识别文本中每一分词的分类特征,所述识别文本是对语音数据进行语音识别后得到的;
将每一分词的分类特征输入至分类模型,输出每一分词的分类标记,所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况;
根据每一分词的分类标记,确定每一分词的展示方式,并基于每一分词的展示方式对所述识别文本中每一分词进行展示。
2.根据权利要求1所述的方法,其特征在于,所述分类特征包括声学分类特征和/或语义分类特征。
3.根据权利要求2所述的方法,其特征在于,对于所述识别文本中的任一分词,所述任一分词的声学分类特征至少包括以下四种信息中的任意一种,所述四种信息分别为所述任一分词在所述语音数据中对应的语音段能量、所述任一分词在所述语音数据中对应的语音段时长、所述任一分词在语音数据中对应的语音段与所述任一分词的前一个分词在语音数据中对应的语音段之间的时间间隔,以及所述任一分词在语音数据中对应的语音段与所述任一分词的后一个分词在语音数据中对应的语音段之间的时间间隔;
所述任一分词的语义分类特征至少包括以下八种信息中的任意一种,所述八种信息分别为所述任一分词的词向量、所述任一分词的情感极性、所述任一分词的词性、所述任一分词在所述识别文本中出现的频率、所述任一分词的关键词标识、所述任一分词在文档分页对应的文本中出现的频率、所述任一分词在所述文档分页中的显示字体大小,以及所述任一分词的特殊符号标识;其中,所述文档分页对应的文本包含所述识别文本对应的文本内容。
4.根据权利要求1所述的方法,其特征在于,所述将每一分词的分类特征输入至分类模型,输出每一分词的分类标记,包括:
对于所述识别文本中的任一分词,将所述任一分词的分类特征输入至所述分类模型,输出所述任一分词的分类标记;或者,
将所述任一分词的分类特征、所述任一分词的前一个分词对应的分类特征和所述任一分词的后一个分词对应的分类特征同时输入至所述分类模型,输出所述任一分词的分类标记。
5.根据权利要求1所述的方法,其特征在于,所述基于每一分词的展示方式对所述识别文本中每一分词进行展示之前,还包括:
基于预设表达规则,对所述识别文本中分词的表达形式进行规整;和/或,
获取所述识别文本中相邻分词之间的标点添加概率,若所述标点添加概率大于预设阈值,则在所述相邻分词之间添加标点。
6.一种识别文本展示装置,其特征在于,包括:
特征获取单元,用于获取识别文本中每一分词的分类特征,所述识别文本是对语音数据进行语音识别后得到的;
分类获取单元,用于将每一分词的分类特征输入至分类模型,输出每一分词的分类标记,所述分类标记用于表示分词在识别文本中的重要程度和/或在识别文本中的异常情况;
展示单元,用于根据每一分词的分类标记,确定每一分词的展示方式,并基于每一分词的展示方式对所述识别文本中每一分词进行展示。
7.根据权利要求6所述的装置,其特征在于,所述分类特征包括声学分类特征和/或语义分类特征。
8.根据权利要求7所述的装置,其特征在于,对于所述识别文本中的任一分词,所述任一分词的声学分类特征至少包括以下四种信息中的任意一种,所述四种信息分别为所述任一分词在所述语音数据中对应的语音段能量、所述任一分词在所述语音数据中对应的语音段时长、所述任一分词在语音数据中对应的语音段与所述任一分词的前一个分词在语音数据中对应的语音段之间的时间间隔,以及所述任一分词在语音数据中对应的语音段与所述任一分词的后一个分词在语音数据中对应的语音段之间的时间间隔;
所述任一分词的语义分类特征至少包括以下八种信息中的任意一种,所述八种信息分别为所述任一分词的词向量、所述任一分词的情感极性、所述任一分词的词性、所述任一分词在所述识别文本中出现的频率、所述任一分词的关键词标识、所述任一分词在文档分页对应的文本中出现的频率、所述任一分词在所述文档分页中的显示字体大小,以及所述任一分词的特殊符号标识;其中,所述文档分页对应的文本包含所述识别文本对应的文本内容。
9.一种识别文本展示设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330612.5A CN108536654B (zh) | 2018-04-13 | 2018-04-13 | 识别文本展示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810330612.5A CN108536654B (zh) | 2018-04-13 | 2018-04-13 | 识别文本展示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108536654A true CN108536654A (zh) | 2018-09-14 |
CN108536654B CN108536654B (zh) | 2022-05-17 |
Family
ID=63480283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810330612.5A Active CN108536654B (zh) | 2018-04-13 | 2018-04-13 | 识别文本展示方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536654B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109326279A (zh) * | 2018-11-23 | 2019-02-12 | 北京羽扇智信息科技有限公司 | 一种文本转语音的方法、装置、电子设备和存储介质 |
CN109545187A (zh) * | 2018-11-21 | 2019-03-29 | 维沃移动通信有限公司 | 一种显示控制方法及终端 |
CN109727597A (zh) * | 2019-01-08 | 2019-05-07 | 未来电视有限公司 | 语音信息的交互辅助方法和装置 |
CN109785681A (zh) * | 2019-03-22 | 2019-05-21 | 邱洵 | 一种英语语言教学系统及教学应用方法 |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
CN110569874A (zh) * | 2019-08-05 | 2019-12-13 | 深圳大学 | 一种垃圾分类方法、装置、智能终端及存储介质 |
CN110765757A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯云计算(北京)有限责任公司 | 文本识别方法、计算机可读存储介质和计算机设备 |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及系统 |
CN111062221A (zh) * | 2019-12-13 | 2020-04-24 | 北京欧珀通信有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN111601145A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于直播的内容展示方法、装置、设备及存储介质 |
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN112599130A (zh) * | 2020-12-03 | 2021-04-02 | 安徽宝信信息科技有限公司 | 一种基于智慧屏的智能会议系统 |
CN112667767A (zh) * | 2020-12-31 | 2021-04-16 | 北京百炼智能科技有限公司 | 一种信息处理的方法及装置 |
CN113360660A (zh) * | 2021-07-27 | 2021-09-07 | 北京有竹居网络技术有限公司 | 文本类别识别方法、装置、电子设备和存储介质 |
US11580463B2 (en) | 2019-05-06 | 2023-02-14 | Hithink Royalflush Information Network Co., Ltd. | Systems and methods for report generation |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
JP2012252147A (ja) * | 2011-06-02 | 2012-12-20 | Takenaka Komuten Co Ltd | 信号補正装置、音響再現システムおよびプログラム |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
CN107291780A (zh) * | 2016-04-12 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 一种用户评论信息展示方法和装置 |
-
2018
- 2018-04-13 CN CN201810330612.5A patent/CN108536654B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
JP2012252147A (ja) * | 2011-06-02 | 2012-12-20 | Takenaka Komuten Co Ltd | 信号補正装置、音響再現システムおよびプログラム |
CN105244022A (zh) * | 2015-09-28 | 2016-01-13 | 科大讯飞股份有限公司 | 音视频字幕生成方法及装置 |
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN105427858A (zh) * | 2015-11-06 | 2016-03-23 | 科大讯飞股份有限公司 | 实现语音自动分类的方法及系统 |
CN107291780A (zh) * | 2016-04-12 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 一种用户评论信息展示方法和装置 |
CN106503805A (zh) * | 2016-11-14 | 2017-03-15 | 合肥工业大学 | 一种基于机器学习的双模态人人对话情感分析系统及其方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109545187A (zh) * | 2018-11-21 | 2019-03-29 | 维沃移动通信有限公司 | 一种显示控制方法及终端 |
CN109326279A (zh) * | 2018-11-23 | 2019-02-12 | 北京羽扇智信息科技有限公司 | 一种文本转语音的方法、装置、电子设备和存储介质 |
CN109727597A (zh) * | 2019-01-08 | 2019-05-07 | 未来电视有限公司 | 语音信息的交互辅助方法和装置 |
CN109785681A (zh) * | 2019-03-22 | 2019-05-21 | 邱洵 | 一种英语语言教学系统及教学应用方法 |
US11580463B2 (en) | 2019-05-06 | 2023-02-14 | Hithink Royalflush Information Network Co., Ltd. | Systems and methods for report generation |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
CN110569874A (zh) * | 2019-08-05 | 2019-12-13 | 深圳大学 | 一种垃圾分类方法、装置、智能终端及存储介质 |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及系统 |
CN110765757A (zh) * | 2019-10-16 | 2020-02-07 | 腾讯云计算(北京)有限责任公司 | 文本识别方法、计算机可读存储介质和计算机设备 |
CN111062221A (zh) * | 2019-12-13 | 2020-04-24 | 北京欧珀通信有限公司 | 数据处理方法、装置、电子设备以及存储介质 |
CN111601145A (zh) * | 2020-05-20 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于直播的内容展示方法、装置、设备及存储介质 |
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN111832248B (zh) * | 2020-07-27 | 2024-07-05 | 中国科学技术大学 | 文本规整方法、装置、电子设备和存储介质 |
CN112599130A (zh) * | 2020-12-03 | 2021-04-02 | 安徽宝信信息科技有限公司 | 一种基于智慧屏的智能会议系统 |
CN112667767A (zh) * | 2020-12-31 | 2021-04-16 | 北京百炼智能科技有限公司 | 一种信息处理的方法及装置 |
CN113360660A (zh) * | 2021-07-27 | 2021-09-07 | 北京有竹居网络技术有限公司 | 文本类别识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108536654B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108536654A (zh) | 识别文本展示方法及装置 | |
US10991366B2 (en) | Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query | |
Tatman | Gender and dialect bias in YouTube’s automatic captions | |
CN111177324B (zh) | 基于语音识别结果进行意图分类的方法和装置 | |
CN108847241A (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107679032A (zh) | 语音转换纠错方法和装置 | |
Gupta et al. | Two-stream emotion recognition for call center monitoring. | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN112927679A (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN112015872A (zh) | 问句识别方法及装置 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
KR101440887B1 (ko) | 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치 | |
CN112687296B (zh) | 音频不流利的识别方法、装置、设备及可读存储介质 | |
CN112116181A (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN115063155A (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
US11947872B1 (en) | Natural language processing platform for automated event analysis, translation, and transcription verification | |
CN114242045A (zh) | 一种自然语言对话系统意图深度学习方法 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 | |
CN112131343B (zh) | 一种中文小说对话人物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |