CN111832308B - 语音识别文本连贯性处理方法和装置 - Google Patents

语音识别文本连贯性处理方法和装置 Download PDF

Info

Publication number
CN111832308B
CN111832308B CN202010694673.7A CN202010694673A CN111832308B CN 111832308 B CN111832308 B CN 111832308B CN 202010694673 A CN202010694673 A CN 202010694673A CN 111832308 B CN111832308 B CN 111832308B
Authority
CN
China
Prior art keywords
sentence
word
sentences
word embedding
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010694673.7A
Other languages
English (en)
Other versions
CN111832308A (zh
Inventor
缪庆亮
吴仁守
朱钦佩
朱少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN202010694673.7A priority Critical patent/CN111832308B/zh
Publication of CN111832308A publication Critical patent/CN111832308A/zh
Application granted granted Critical
Publication of CN111832308B publication Critical patent/CN111832308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种语音识别文本连贯性处理方法和装置,其中,语音识别文本连贯性处理方法,包括:识别出语音识别文本中的至少一个关键信息的起始位置;从起始位置开始取多个句子,根据句子中的每个词或每个词组的第一词嵌入计算与句子对应的第二词嵌入,根据第二词嵌入计算文本片段对应的第三词嵌入;至少基于第一词嵌入、第二词嵌入和第三词嵌入计算句子与其他句子之间的相似度、句子与起始句子之间的距离衰减以及句子与起始句子之间的连贯度;基于相似度构建语义图,并根据语义图计算句子的重要程度;利用图聚类算法获取一个或多个聚类中心,计算相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。

Description

语音识别文本连贯性处理方法和装置
技术领域
本发明属于语音识别后处理技术领域,尤其涉及语音识别文本连贯性处理方法和装置。
背景技术
相关技术中,语音识别系统ASR(Automatic Speech Recognition)识别结果中句子的断句存在错误,导致语音转写后的文本在进行质检和会议摘要等文本分析时出现问题。文本分析系统面临着ASR识别结果不连贯等问题。
目前判断句子是否连贯的方法主要有:
基于声学特征的方法:根据人在说话时的停顿或者韵律(prosody)进行整句的预测。
基于文本特征的方法:使用语言模型建模或者序列标注建模来预测某个词后面是否是句子结束的标志。
发明内容
本发明实施例提供一种语音识别文本连贯性处理方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音识别文本连贯性处理方法,包括:通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
第二方面,本发明实施例提供一种语音识别文本连贯性处理装置,包括:识别模块,配置为通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;嵌入模块,配置为从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;第一计算模块,配置为至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;构建模块,配置为基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;以及第二计算模块,配置为利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
第三方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行第一方面所述的语音识别文本连贯性处理方法的步骤。
第四方面,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述方法的步骤。
本申请实施例提供的方法通过预设分类模板或者预设分类模型识别出关键信息的起始位置,然后从起始位置开始取一个文本片段,将每个句子和文本片段做词嵌入,计算每个句子与文本片段的语义相似度,并结合句子之间的距离信息,给予一定的语义相似度衰减,最后选定N个句子作为最终的结果,从而可以实现确定文本片段中属于连贯的句子。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音识别文本连贯性处理方法的流程图;
图2为本发明一实施例提供的另一种语音识别文本连贯性处理方法的流程图;
图3为本发明一实施例提供的又一种语音识别文本连贯性处理方法的流程图;
图4为本发明一实施例提供的又一种语音识别文本连贯性处理方法的流程图;
图5是本发明实施例的语音识别文本连贯性处理的方案一具体实施例的系统流程图;
图6是本发明实施例的语音识别文本连贯性处理的方案一具体实施例的句子和文档的向量表示流程图;
图7是本发明实施例的语音识别文本连贯性处理的方案一具体实施例的句子和文本片段的相似度输出流程图;
图8时本发明一实施例提供的一种语音识别文本连贯性处理装置的框图;
图9是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明的一种语音识别文本连贯性处理方法的一实施例的流程图,
如图1所示,在步骤101中,通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;
在步骤102中,从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;
在步骤103中,至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;
在步骤104中,基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;
在步骤105中,利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
在本实施例中,对于步骤101,语音识别文本连贯性处理装置通过基于预设关键字形成的预设分类模板或者预设分类模型识别出语音识别文本中的至少一个与所述预设关键字对应的内容的关键信息的起始位置,例如,预设了一个带有会议主题、会议时间和会议地点的预设分类模板,例如,一个语音识别文本为:今天我们讨论一下A项目的问题,开会的时间定为下午4点,地点定在会议室;那么预设分类模板就可以利用预设关键字识别出语音识别文本中的第一关键信息:A项目,第二关键信息:下午4点和第三关键信息:会议室,其中,第一关键信息的起始位置为:今,第二关键信息的起始位置为:开,第三关键信息的起始位置为:地。
然后,对于步骤102,语音识别文本连贯性处理装置从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入,其中,词嵌入是将每个句子中的每个词或每个词组(word)转换为每个词或每个词组的向量(vector)表示,例如,一个文本片段为:今天我们讨论一下A项目的问题,开会的时间定为下午4点,地点定在会议室;经过词嵌入后获得:今天、我们、讨论、一下、A项目、的、问题,开会、的、时间、定为、下午4点,地点、定在、会议室的向量表示,然后根据今天、我们、讨论、一下、A项目、的和问题的向量表示计算获得今天我们讨论一下A项目的问题这一句子的向量表示,根据开会、的、时间、定为和下午4点的向量表示计算获得开会的时间定为下午4点这一句子的向量表示,根据地点、定在、会议室的向量表示计算获得地点定在会议室这一句子的向量表示,最后根据今天我们讨论一下A项目的问题、开会的时间定为下午4点和地点定在会议室的向量表示计算获得今天我们讨论一下A项目的问题,开会的时间定为下午4点,地点定在会议室这一文本片段的向量表示。
之后,对于步骤103,语音识别文本连贯性处理装置可以根据前面计算得到的第一词嵌入、第二词嵌入和第三词嵌入计算所述每一句子与其他句子之间的相似度,然后计算每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度。
然后,对于步骤104,语音识别文本连贯性处理装置基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度,其中,语义图模型是语言类型学近年来备受关注的一种新的研究视角,目的是采用几何图形来表征语法形式的多功能性,揭示人类语言中语法形式多功能模式的系统性和规律性。
最后,对于步骤105,利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列,其中,聚类分析是一种常用的机器学习技术,它的目的是将一个数据点划分为几个类。同一个类的数据之间具有较高的相似性,不同的类之间的相似度较低。
在本实施例的方案中,通过预设分类模板或者预设分类模型识别出关键信息的起始位置,然后从起始位置开始取一个文本片段,将每个句子和文本片段做词嵌入,计算每个句子与文本片段的语义相似度,并结合句子之间的距离信息,给予一定的语义相似度衰减,最后选定N个句子作为最终的结果,从而可以实现确定文本片段中属于连贯的句子。
请参考图2,其示出了本发明一实施例提供的另一种语音识别文本连贯性处理方法的流程图,该流程图主要是针对流程图图1中步骤104“基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度”进一步限定的步骤的流程图。
如图2所示,在步骤201中,将所述每一句子作为语义图的节点,将所述节点之间的边表示所述每一句子与其他句子之间的相似度;
在步骤202中,基于所述相似度利用textrank算法计算每一句子的重要程度。
在本实施例中,对于步骤201,语音识别文本连贯性处理装置将所述每一句子作为语义图的节点,将所述节点之间的边表示所述每一句子与其他句子之间的相似度,例如第i句和第j句的语义相似度为S(i,j)。句子间建N×N的语义图,语义图中节点是句子,节点之间的边表示语义相关性,相关性大小由S(i,j)表示;
然后,对于步骤202,语音识别文本连贯性处理装置基于所述相似度利用textrank算法计算每一句子的重要程度,例如,第i句的重要程度可以用S3(i)表示。
在本实施例的方案中,通过构建语义图计算句子之间的语义相似度,从而可以实现利用textrank算法计算每一句子的重要程度。
在一些可选的实施例的方法中,所述预设分类模板由所述预设关键字和模板组成,所述方法还包括:用所述模板和所述预设关键词训练所述预设分类模型,从而让所述预设分类模型能够识别出所述语音识别文本内的关键信息,从而可以实现识别出语音识别文本的关键信息。
请参考图3,其示出了本发明一实施例提供的又一种语音识别文本连贯性处理方法的流程图,该流程图主要是针对流程图图1中步骤102“所述从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入包括”进一步限定的步骤的流程图。
如图3所示,在步骤301中,从所述起始位置开始取多个句子,将每一句子中的每个词或每个词组的第一词嵌入累加,获得与所述每一句子对应的第二词嵌入;
在步骤302中,将所述第二词嵌入累加获得所述多个句子组成的文本片段对应的第三词嵌入。
在本实施例中,对于步骤301,语音识别文本连贯性处理装置从所述起始位置开始取多个句子组成一个文本片段做词嵌入,将其中每个句子中的每个词或每个词组转换为每个词或每个词组的向量表示,也就是第一词嵌入,然后通过每个词或每个词组的向量表示直接累加获得与所述每一句子对应的向量表示,也就是第二词嵌入。
最后,对于步骤302,通过每一句子的向量表示直接累加获得所述多个句子组成的文本片段对应的向量表示,也就是第三词嵌入。
例如,一个文本片段为:今天我们讨论一下A项目的问题,开会的时间定为下午4点,地点定在会议室;经过词嵌入后获得:今天、我们、讨论、一下、A项目、的、问题,开会、的、时间、定为、下午4点,地点、定在、会议室的向量表示,然后经过将今天+我们+讨论+一下+A项目+的+问题的向量进行累加,这样的直接累加获得今天我们讨论一下A项目的问题这一句子的向量表示,之后再将句子的向量表示直接累加得到文本片段的向量表示。
在本实施例的方案中,通过每个句子的词嵌入与文本片段的词嵌入从而可以实现每个句子与文本片段的向量表示。
请参考图4,其示出了本发明一实施例提供的又一种语音识别文本连贯性处理方法的流程图,该流程图主要是针对流程图图1中步骤103“至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度”进一步限定的步骤的流程图。
如图4所述,在步骤401中,通过余弦距离衰减计算所述第二词嵌入和所述第三词嵌入的相似度;
在步骤402中,基于预设距离衰减公式计算所述每一句子到所述起始句子的距离衰减;
在步骤403中,判断所述每一句子与所述其他句子之间是否包含连词或所述每一句子与其他句子是否包含公共的实体词,以计算所述每一句子与所述起始句子的连贯度。
在本实施例中,对于步骤401,语音识别文本连贯性处理装置是通过所述第二词嵌入和所述第三词嵌入之间的余弦距离衰减计算所述第二词嵌入和所述第三词嵌入的相似度;然后,对于步骤402,语音识别文本连贯性处理装置基于预设距离衰减公式计算每一句子到起始句子的距离衰减;例如,用每个句子的语义向量和文本片段整体语义向量来通过余弦距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文本片段整体语义越匹配;最后,对于步骤403,语音识别文本连贯性处理装置判断每一句子与其他句子之间是否包含连词或所述每一句子与其他句子是否包含公共的实体词,以计算所述每一句子与所述起始句子的连贯度,例如,句子之间是否有“和、还有”等连词,或是否有公共的人名等命名实体词,例如,可以用S3(i)来表示第i句的重要程度。
在本实施例的方案中,通过每个句子的词嵌入与文本片段的词嵌入利用余弦距离衰减从而可以实现计算每个句子与文本片段的语义相似度,又通过判断每个句子之间是否包含连词或是否包含公共的实体词从而可以实现计算每个句子的重要程度。
在上述实施例所述的方法中,所述预设距离衰减公式为:
θ(l)=N0e-λl
其中,N0=1.0,λ为预设阈值,l为当前句子到起始句子的距离。
在一些可选的实施例中,所述方法还包括:响应于用户的音频输入或者录音,将所述音频输入或者录音转换成语音识别文本。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
这些相似技术的缺陷:
基于声学特征的方法:根据人在说话时的停顿或者韵律(prosody)进行整句的预测;由于句子结束与否和语音信息中停顿的时间长短没有必然的联系,每个人每种语境下说话语速不同,很难设定停顿时间阈值,因此这种方法的精度较低。并且,无法区分句号、问号、感叹号等句子结束标点符号。
基于文本特征的方法:使用语言模型建模或者序列标注建模来预测某个词后面是否是句子结束的标志。这种方法训练出来的模型泛化性能较差,在不同语境下,标点符号的使用习惯也不尽相同,这就导致模型最终的效果有限。
为什么不容易想到原因:
目前判断句子连贯性的方法往往基于声学和语言模型,通常的做法包括:
基于声学特征的方法:即根据人在说话时的停顿或者韵律(prosody)进行整句的预测;解决这种方法的缺陷的方法是动态调整停顿间隔的阈值,根据每个人的语速等声学特征设定不同的阈值。
基于语言模型建模或者序列标注建模来预测某个词后面是否是句子结束的标志。这类方法的问题是泛化性较差,扩展到其他领域还需要重新训练或调整模型。解决方案是可以使用大规模的预训练模型如BERT等。
本申请实施例的方案通过以下方案解决上述现有技术中存在的技术问题:
本专利提出的方案不但考虑语言特征,更多的考虑了句子之间的语义信息,另外更关注句子之间的语义关联,识别的是文本片段的连贯性,而非句子内部的连贯性。同时由于本方法利用图排序算法,可以实现非连续句子的识别。比如句子ABCDEF,其中ABDF可能是会议结论,CE是会议待办。可以实现将非连续句子识别为同一语义连贯片段。传统的方法无法做到这一点。
本方法以会议录音转写成文本后的摘要生成任务为例,首先通过规则模板、关键词或分类模型识别出关键信息,比如会议主题,会议结论,会议待办等重要信息的开始位置。然后以第一句为起始点,选定某一长度的文本片段,文本片段包括多个句子。然后将每个句子和文本片段做embeeding(嵌入)。计算每个句子与片段的语义相似度。并结合句子之间的距离信息,给予一定的语义相似度衰减,最后选定n个句子作为最终的结果。本发明结合了关键词信息,位置信息,语义相似度等多种信息。通过排序算法确定片段中属于连贯的句子。
本发明的技术创新点:
基于关键词的重要信息预定位方法
句子间语义相似度计算方法
句子排序选择方法
该方法的流程如图1所示,首先识别关键信息的起始位置,可以利用关键词、模板或分类模型。下面是一些模板和关键词。也可以利用这些关键词和模板训练分类模型,模型可以识别出主题,时间,地点等关键信息。
会议主题:
1.今天我们讨论一下xxxxx的问题
2.我们聊一聊xxxxx
3.今天我们开会(讲一下|聊一下|讨论|探究)xxxxx的事情
会议时间:
早上*点开会
今天下午*点开会
开会时间是下午*点
会议地点:
我们在xxx开会
我们的开会地点是xxxx
开会地点在xxxxxx
与会人信息:
今天参加会议的有xxx、xxx、xxx和xxx
xxxx、xxx、xxx一起开个会
3.参会人、与会人有xxxxx
会议待办:
待办事项1是/有xxxx
待办事宜是/有xxx
待办是/有xxx
会议待办负责人:
由xxxx负责。xxxx协助,向xxxx报告
负责人是xxx
负责人是xxx和xxxx
会议结论:
会议结论是xxx
总之,xxxxx
总的来说,xxxxx
第二步,从第一步确定的起始位置开始,取N个句子。将句子中的每个词或词组的Word Embedding(词嵌入)直接累加,从而获得句子的Word Embedding表示;把每个句子的WordEmbedding直接累加获得N个句子组成的文本片段的Word Embedding。
用每个句子的语义向量和文本片段整体语义向量来通过余弦距离计算两者之间的距离,分值越大,说明这个句子在语义上越和文本片段整体语义越匹配。计算每个句子和文本片段整体语义的语义相似性得分,用S1(i)表示第i句的语义相似度。
第三步,计算距离衰减,由下面的公式(1)计算,其中N0=1.0,λ根据需要调,l是当前句子到起始句子的距离。
θ(l)=N0e-λl (1)
第n句和前n-1句的语义相似度,n的取值为2到N。
第四步,计算连贯度,连贯度包括1、句子之间是否有“和,还有”等连词,如果有连贯度为1.0;2、句子之间是否有公共的人名等命名实体词,如果有连贯度1.0;用S2(i)表示第i句与起始句的连贯度。
第五步,构建语义图,计算句子之间的语义相似度,方法和步骤2相同。比如第i句和第j句的语义相似度为S(i,j)。句子间建立N*N的语义图,语义图中节点是句子,节点之间的边表示语义相关性,相关性大小由S(i,j)表示。利用textrank算法计算每个节点(句子)的重要程度,用S3(i)表示,第i句的重要程度。
第六步,利用图聚类算法,找到一个或多个聚类中心,然后为每个聚类中心计算S=S1(i)+S2(i)+S3(i)+θ(l),取S排名前n的句子作为连贯句子序列。
请参考图8,其示出了本发明一实施例提供的一种语音识别文本连贯性处理装置的框图。
如图8所示,语音识别文本连贯性处理装置800,包括:识别模块810、嵌入模块820、第一计算模块830、构建模块840和第二计算模块850。
其中,识别模块810,配置为通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;嵌入模块820,配置为从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;第一计算模块830,配置为至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;构建模块840,配置为基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;以及第二计算模块850,配置为利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
应当理解,图8中记载的诸模块与参考图1、图2、图3、和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图8中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如识别模块可以描述为通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容,另外,还可以通过硬件处理器来实现相关功能模块,例如识别模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别文本连贯性处理方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;
从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;
至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;
基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;
利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别文本连贯性处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音识别文本连贯性处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音识别文本连贯性处理方法。
图9是本发明实施例提供的电子设备的结构示意图,如图9所示,该设备包括:一个或多个处理器910以及存储器920,图9中以一个处理器910为例。用于语音识别文本连贯性处理方法的设备还可以包括:输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音识别文本连贯性处理装置方法。输入装置930可接收输入的数字或字符信息,以及产生与用于语音识别文本连贯性处理装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于语音识别文本连贯性处理装置中,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;
从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入;
至少基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;
基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;
利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取和值排名前n的句子作为连贯句子序列。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种语音识别文本连贯性处理方法,包括:
通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;
从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入,其中,所述第一词嵌入是将所述每一句子中的每个词或每个词组转换为每个词或每个词组的向量表示,所述第二词嵌入是通过所述每个词或所述每个词组的向量表示直接累加获得与所述每一句子对应的向量表示,所述第三词嵌入是通过所述每一句子的向量表示直接累加获得所述多个句子组成的文本片段对应的向量表示;
基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;
通过余弦距离衰减计算所述第二词嵌入和所述第三词嵌入的相似度;
基于预设距离衰减公式计算所述每一句子到所述起始句子的距离衰减,其中,所述预设距离衰减公式为:
其中,N0=1.0,为预设阈值,l为当前句子到起始句子的距离;
判断所述每一句子与所述其他句子之间是否包含连词或所述每一句子与其他句子是否包含公共的实体词,以计算所述每一句子与所述起始句子的连贯度;
基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;
利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取所述和值排名前n的句子作为连贯句子序列。
2.根据权利要求1所述的方法,其中,所述基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度包括:
将所述每一句子作为语义图的节点,将所述节点之间的边表示所述每一句子与其他句子之间的相似度;
基于所述相似度利用textrank算法计算每一句子的重要程度。
3.根据权利要求1所述的方法,其中,所述预设分类模板由所述预设关键字和模板组成,所述方法还包括:
用所述模板和预设关键词训练所述预设分类模型,从而让所述预设分类模型能够识别出所述语音识别文本内的关键信息。
4.根据权利要求1所述的方法,其中,所述从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入包括:
从所述起始位置开始取多个句子,将每一句子中的每个词或每个词组的第一词嵌入累加,获得与所述每一句子对应的第二词嵌入;
将所述第二词嵌入累加获得所述多个句子组成的文本片段对应的第三词嵌入。
5.根据权利要求1-4中任一项所述的方法,其中,所述方法还包括:
响应于用户的音频输入或者录音,将所述音频输入或者所述录音转换成语音识别文本。
6.一种语音识别文本连贯性处理装置,包括:
识别模块,配置为通过预设分类模板或者预设分类模型识别出语音识别文本中的至少一个关键信息的起始位置,其中所述预设分类模板或所述预设分类模型均是基于预设关键字形成,所述关键信息为与所述预设关键字对应的内容;
嵌入模块,配置为从所述起始位置开始取多个句子,根据每一句子中的每个词或每个词组的第一词嵌入计算与所述每一句子对应的第二词嵌入,根据所述第二词嵌入计算所述多个句子组成的文本片段对应的第三词嵌入,其中,所述第一词嵌入是将所述每一句子中的每个词或每个词组转换为每个词或每个词组的向量表示,所述第二词嵌入是通过所述每个词或所述每个词组的向量表示直接累加获得与所述每一句子对应的向量表示,所述第三词嵌入是通过所述每一句子的向量表示直接累加获得所述多个句子组成的文本片段对应的向量表示;
第一计算模块,配置为基于所述第一词嵌入、所述第二词嵌入和所述第三词嵌入计算所述每一句子与其他句子之间的相似度、所述每一句子与起始句子之间的距离衰减以及每一句子与起始句子之间的连贯度;所述第一计算模块还包括:配置为通过余弦距离衰减计算所述第二词嵌入和所述第三词嵌入的相似度;基于预设距离衰减公式计算所述每一句子到所述起始句子的距离衰减,其中,所述预设距离衰减公式为:
;其中,N0=1.0,/>为预设阈值,l为当前句子到起始句子的距离;判断所述每一句子与所述其他句子之间是否包含连词或所述每一句子与其他句子是否包含公共的实体词,以计算所述每一句子与所述起始句子的连贯度;
构建模块,配置为基于所述相似度构建语义图,并根据所述语义图计算所述每一句子的重要程度;
第二计算模块,配置为利用图聚类算法获取一个或多个聚类中心,计算每个聚类中心的相似度、连贯度、重要程度与距离衰减的和值,取所述和值排名前n的句子作为连贯句子序列。
7.一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-5中任一项所述方法的步骤。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
CN202010694673.7A 2020-07-17 2020-07-17 语音识别文本连贯性处理方法和装置 Active CN111832308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010694673.7A CN111832308B (zh) 2020-07-17 2020-07-17 语音识别文本连贯性处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010694673.7A CN111832308B (zh) 2020-07-17 2020-07-17 语音识别文本连贯性处理方法和装置

Publications (2)

Publication Number Publication Date
CN111832308A CN111832308A (zh) 2020-10-27
CN111832308B true CN111832308B (zh) 2023-09-08

Family

ID=72923612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010694673.7A Active CN111832308B (zh) 2020-07-17 2020-07-17 语音识别文本连贯性处理方法和装置

Country Status (1)

Country Link
CN (1) CN111832308B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597278B (zh) * 2020-12-25 2024-06-14 北京知因智慧科技有限公司 一种语义信息融合方法、装置、电子设备及存储介质
CN113011169B (zh) * 2021-01-27 2022-11-11 北京字跳网络技术有限公司 一种会议纪要的处理方法、装置、设备及介质
CN113705232B (zh) * 2021-03-03 2024-05-07 腾讯科技(深圳)有限公司 文本处理方法及装置
CN113743125B (zh) * 2021-09-07 2024-10-15 广州晓阳智能科技有限公司 文本连贯性分析方法及装置
CN114611524B (zh) * 2022-02-08 2023-11-17 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质
CN115526173A (zh) * 2022-10-12 2022-12-27 湖北大学 一种基于计算机信息技术的特征词提取方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN110287309A (zh) * 2019-06-21 2019-09-27 深圳大学 快速提取文本摘要的方法
CN110457466A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN108197111A (zh) * 2018-01-10 2018-06-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
CN110287309A (zh) * 2019-06-21 2019-09-27 深圳大学 快速提取文本摘要的方法
CN110457466A (zh) * 2019-06-28 2019-11-15 谭浩 生成访谈报告的方法、计算机可读存储介质和终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王志宏 ; 过弋 ; .基于词句重要性的中文专利关键词自动抽取研究.情报理论与实践.2018,第41卷(第9期),第123-129页. *

Also Published As

Publication number Publication date
CN111832308A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111832308B (zh) 语音识别文本连贯性处理方法和装置
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
EP3652733B1 (en) Contextual spoken language understanding in a spoken dialogue system
CN109509470B (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
US20210142794A1 (en) Speech processing dialog management
CN107016994B (zh) 语音识别的方法及装置
CN110516253B (zh) 中文口语语义理解方法及系统
US11823678B2 (en) Proactive command framework
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
US11574637B1 (en) Spoken language understanding models
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
US11132994B1 (en) Multi-domain dialog state tracking
US11990122B2 (en) User-system dialog expansion
US11398226B1 (en) Complex natural language processing
CN112017643B (zh) 语音识别模型训练方法、语音识别方法及相关装置
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
Harwath et al. Zero resource spoken audio corpus analysis
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110851650A (zh) 一种评论输出方法、装置、以及计算机存储介质
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
US11842737B2 (en) Automated assistant interaction prediction using fusion of visual and audio input
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
US11626107B1 (en) Natural language processing
CN112446219A (zh) 一种中文请求文本意图分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant