CN112183073A - 一种适用于法律热线语音识别的文本纠错和补全方法 - Google Patents

一种适用于法律热线语音识别的文本纠错和补全方法 Download PDF

Info

Publication number
CN112183073A
CN112183073A CN202011357749.3A CN202011357749A CN112183073A CN 112183073 A CN112183073 A CN 112183073A CN 202011357749 A CN202011357749 A CN 202011357749A CN 112183073 A CN112183073 A CN 112183073A
Authority
CN
China
Prior art keywords
text
legal
value
speech recognition
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011357749.3A
Other languages
English (en)
Inventor
郑茂盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingdun Information Technology Co ltd
Original Assignee
Beijing Qingdun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingdun Information Technology Co ltd filed Critical Beijing Qingdun Information Technology Co ltd
Priority to CN202011357749.3A priority Critical patent/CN112183073A/zh
Publication of CN112183073A publication Critical patent/CN112183073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算待纠错文本与法律词汇的编辑距离,将待纠错文本进行预测,得到第一概率预测值;将编辑距离值、关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第一分数和第二分数;根据第一分数判断是否需要纠错,并进行纠正;根据第二分数判断是否需要补全,并补全文本。采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。

Description

一种适用于法律热线语音识别的文本纠错和补全方法
技术领域
本发明属于语音识别技术领域,尤其涉及一种适用于法律热线语音识别的文本纠错和补全方法。
背景技术
面向法律热线这一特定场景的语音识别,例如拨打12348、12368等司法服务热线时,因电话语音识别发展滞后、用户对法律不够熟悉、地方口音等原因,导致热点电话通话过程中的实时语音识别容易出现错漏,目前面向法律热线场景未有完善易用的语音识别文本纠错方法,法律热线领域是一个专业领域,通用的方法在该领域效果不佳。并且现有的语音识别文本纠错方法,没有提供补全方法,如果语音识别结果存在完整词汇的遗漏,就无法进行纠错。
发明内容
(一)发明目的
本发明的目的是提供一种适用于法律热线语音识别的文本纠错和补全方法以解决现有技术中法律热线的语音识别经常出现错漏的问题。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
进一步地,还包括:将所述第一分数与所述第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;将所述第二分数与所述第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;所述第一阈值为0-1;所述第二阈值为0-1。
进一步地,还包括:将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇;所述第三阈值为0-1。
进一步地,还包括:将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;将所述编辑距离值与所述第四阈值进行比较,将所述编辑距离值小于第四阈值的词作为候选词汇;所述第四阈值为0-1。
进一步地,还包括:采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;使用所述候选补全词对所述待纠错文本进行补全。
进一步地,所述注音针对多音字产生多个注音结果。
进一步地,根据所述待纠错文本,获取拼音首字母字符串;其中,针对多个注音结果产生多个首字母结果。
进一步地,还包括:进行地区调研,结合调研结果,总结地方口音;基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
进一步地,所述编辑距离的计算方法如下式:
Figure 272566DEST_PATH_IMAGE001
Figure 45350DEST_PATH_IMAGE002
指字符串a中前i个字符与字符串b中前j个字符之间的距离,当i=|a|,j=|b|时,计算结果为a,b的编辑距离当
Figure 586053DEST_PATH_IMAGE003
a,b间的编辑距离为三种操作的最小值,其中:
Figure 760682DEST_PATH_IMAGE004
表示删除ai;
Figure 361428DEST_PATH_IMAGE005
表示插入bj;
Figure 355929DEST_PATH_IMAGE006
表示ai替换为bj;当
Figure 965902DEST_PATH_IMAGE007
时,i和j中有一个值为0,a和b之间有一个为空串,此时两个字符串间的编辑距离为
Figure 227993DEST_PATH_IMAGE008
Figure 265220DEST_PATH_IMAGE009
表示当字符串a的第i个字符和字符串b的第j个字符相同是取值0,否则取值1。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明结合创新的拼音多特征、前沿的预训练语言模型对法律领域的语音识别文本进行纠错和补全;采用基于大规模数据的预训练语言模型和编辑距离的计算,可以大大提升通用文本语义的分析能力;针对性解决法律领域的语音识别错漏问题,进行有效的纠错和补全。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,纠错仅能解决识别错误问题,补全能够基于语义进行针对性的补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
附图说明
图1是根据本发明一实施例的适用于法律热线语音识别的文本纠错和补全方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的,其中为了清楚的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下将参照附图更详细地描述本发明。在各个附图中,相同的元件采用类似的附图标记来表示。为了清楚起见,附图中的各个部分没有按比例绘制。
图1是根据本发明一实施例的适用于法律热线语音识别的文本纠错和补全方法流程图。
如图1所示,在本实施例中,提供一种适用于法律热线语音识别的文本纠错和补全方法,包括:
S1对语音识别的初始文本分词并注音,得到待纠错文本。
导入法律实体词典,可以使用jieba分词等分词工具的搜索分词模式对语音识别文本进行分词。
根据平台的不同,采用各类拼音库(如python的PyPinyin库、Java的pinyin4j包等)对初始文本分词结果进行注音,特别地,针对多音字应产生多个注音结果。
根据注音结果,获取拼音首字母字符串,特别地,针对含有多音字的文本产生多个首字母结果。
根据业务开展情况,收集相应地区的地方口音,收集方法包括但不限于:
网络收集:从互联网上获取公开的语言学知识,整理地方口音模板;
地区调研:在实际应用过程中,针对性的进行地区调研,结合调研结果,总结地方口音。
部分通用地方口音整理如下:
①“f”读成“h”;
②“q”读成“x”;
③后鼻音读成前鼻音;
④卷舌音读成平舌音。
根据地区,基于上述收集的地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果
S2计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值。
本发明针对产生的各类拼音字符串,与词典库内的的法律词汇拼音计算编辑距离,通过编辑距离这一拼音文本特征筛选可能的候选词汇。
编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 VladimirLevenshtein 在1965年提出,也因此而得名Levenshtein Distance。LevenshteinDistance 是用来度量两个序列相似程度的指标。通俗地讲编辑距离指的是在两个单词w1,w2之间,由其中一个单词w1转换为另一个单词w2所需要的最少单字符编辑操作次数。
在这里定义的单字符编辑操作有且仅有三种:
①插入(Insertion);
②删除(Deletion);
③替换(Substitution)。
对于两个拼音字符串a、b,Levenshtein Distance表示为所述编辑距离的计算方法如下式:
Figure 809333DEST_PATH_IMAGE010
Figure 222997DEST_PATH_IMAGE002
指字符串a中前i个字符与字符串b中前j个字符之间的距离,当i=|a|,j=|b|时,计算结果为a,b的编辑距离
Figure 903377DEST_PATH_IMAGE003
a,b间的编辑距离为三种操作的最小值,其中:
Figure 111505DEST_PATH_IMAGE004
表示删除ai
Figure 582063DEST_PATH_IMAGE005
表示插入bj
Figure 268259DEST_PATH_IMAGE006
表示ai替换为bj
Figure 271987DEST_PATH_IMAGE007
时,i和j中有一个值为0,a和b之间有一个为空串,此时两个字符串间的编辑距离为
Figure 651016DEST_PATH_IMAGE008
Figure 107405DEST_PATH_IMAGE009
表示当字符串a的第i个字符和字符串b的第j个字符相同是取值0,否则取值1。
S3将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值。
编辑距离是自然语言处理(NLP)基本的度量文本相似度的算法,可以作为文本相似任务的重要特征之一,其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显,算法基于文本自身的结构去计算,并没有办法获取到语义层面的信息。
本发明引入基于模型BERT的文本语义表示和匹配方法来进行语义层面的分析。
其步骤为构建语料,预训练语言模型采用finetune训练模型和模型预测。
其中构建语料是将所有可能词汇按照步骤S1的方式注音,并按照固定格式存入.csv文件中,finetune的主要工作是修改相应的数处理processor,数据以拼音为传入参数a,对应词汇为传入参数b,格式可以为:
[cls]拼音首字母[seg]全拼[seg]地方口音[sep]法律词汇[sep]。
传入bert预训练模型中进行迁移学习训练,最后对产生的注音结果按照上述格式进行拼接,通过模型进行相应法律词汇类标的预测,取预测结果大于第三阈值的词作为候选法律词汇。
S4采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱。
在一可选实施例中,收集法律文本语料可以包括:裁判文书、法律法规、法律咨询记录等。
S5采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值。
S6将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数。
Bert预训练后的finetune,是一种很高效的方式,节省时间,同时提高模型在垂直语料的表现。finetune过程。从商业角度讲,应着重考虑finetune之后,模型有效性的证明,以及在业务场景中的应用。本发明中bert预训练模型能够很好地抽取拼音文本中的语义信息,将相似的拼音文本对应的法律词汇凸显出来,并给出一个概率预测结果,可用于后续的纠错和补全评价。
S7将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数。
S8根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
本发明结合创新的拼音多特征、前沿的预训练语言模型对法律领域的语音识别文本进行纠错和补全;采用基于大规模数据的预训练语言模型和编辑距离的计算,可以大大提升通用文本语义的分析能力;针对性解决法律领域的语音识别错漏问题,进行有效的纠错和补全。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,纠错仅能解决识别错误问题,补全能够基于语义进行针对性的补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
将所述编辑距离值小于3的注音词汇作为候选词汇集合,缩小后续的计算范围,减少计算量。
取待纠错的注音词(例如nihao)编辑距离小于第四阈值的注音词汇(lihao、ninhao等)作为候选词汇集合,缩小后续的计算范围,减少计算量。
本质是计算对nihao而言lihao等候选词的编辑距离,进行归一化(比如min-max归一化)得到一个0-1的值,和预训练语言模型的概率值(0-1之间)、关联语义分析结果(0-1之间),求三个值的加权平均值后,按照第一阈值确定是否纠错。
在一可选实施例中,收集法律文本语料,如裁判文书、法律法规、法律咨询记录等,通过中文分词、去停用词、人工校验等步骤构建法律领域词典。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述第一分数与所述第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述第二分数与所述第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;
在一可选实施例中,所述第一阈值的范围是0-1。
在一可选实施例中,所述第二阈值的范围是0-1。
在一优选实施例中,所述第一阈值为0.8。
在一优选实施例中,所述第一阈值为0.73。
抽象语义表示(Abstract Meaning Representation,AMR)将一个句子的抽象语义表示为一个单根有向无环图,在AMR图中,通常,一个节点对应于一个概念,在特殊情况下(如专有名词等)由一个子图整体对应于一个概念,语义概念之间的语义关系则对应于相应节点之间的有向边;AMR是一种全新的、领域无关的句子语义表示方法。
在一可选实施例中,将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇。
在一可选实施例中,所述第三阈值的范围是0-1。
在一优选实施例中,所述第三阈值为0.85。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;将所述编辑距离值与所述第四阈值进行比较,若所述编辑距离值小于第四阈值的词作为候选词汇。
在一可选实施例中,所述第四阈值的范围是0-1。
在一优选实施例中,所述第四阈值为0.92。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;使用所述候选补全词对所述待纠错文本进行补全。
使用候选法律词汇进行替换,生成原始文本和替换文本的集合,使用深度学习算法(LSTM-CRF等)对集合内的文本的进行实体识别。以核心实体为根节点,基于法律抽象语义知识图谱进行关联分析,根据知识图谱获取核心实体的关联词汇集合,与待纠错语音识别文本进行匹配,发现候选纠错对和候选补全词,将知识图谱的对应节点权重作为关联语义分析的结果。
使用候选法律词汇进行替换,生成原始文本和替换文本的集合,使用基于深度学习的分类算法(Bert-BiLSTM等)对集合内的文本的进行意图识别
基于法律抽象语义知识图谱进行意图关联分析,获取用户问题可能缺失的法律要素集合,以知识图谱对应节点的权重作为分析结果。
在一可选实施例中,所述注音针对多音字产生多个注音结果。
在一可选实施例中,根据所述待纠错文本,获取拼音首字母字符串;其中,针对多个注音结果产生多个首字母结果。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:进行地区调研,结合调研结果,总结地方口音;基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
在本发明另一实施例中,提供了一种基于法律热线语音识别的文本纠错和补全系统,包括上述方案任一项所述的适用于法律热线语音识别的文本纠错和补全方法进行语音识别的文本纠错和补全。
本发明旨在保护一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。本发明采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种适用于法律热线语音识别的文本纠错和补全方法,其特征在于,包括:
对语音识别的初始文本分词并注音,得到待纠错文本;
计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;
将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;
采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;
采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;
将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;
将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;
根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
2.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述第一分数与第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;
将所述第二分数与第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;
所述第一阈值为0-1;
所述第二阈值为0-1。
3.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;
将所述第二概率预测值与第三阈值进行比较,将所述概率预测值大于所述第三阈值的词作为候选词汇;
所述第三阈值为0-1。
4.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;
将所述编辑距离值与第四阈值进行比较,将所述编辑距离值小于所述第四阈值的词作为候选词汇;
所述第四阈值为0-1。
5.根据权利要求3或4所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;
以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;
使用所述候选补全词对所述待纠错文本进行补全。
6.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,
所述注音针对多音字产生多个注音结果。
7.根据权利要求6所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,
根据所述待纠错文本,获取拼音首字母字符串;
其中,针对多个注音结果产生多个首字母结果。
8.根据权利要求5所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
进行地区调研,结合调研结果,总结地方口音;
基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
9.根据权利要求8所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述编辑距离值小于3的注音词汇作为候选词汇集合,缩小后续的计算范围,减少计算量。
10.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,
所述编辑距离的计算方法如下式:
Figure 673103DEST_PATH_IMAGE001
Figure 161854DEST_PATH_IMAGE002
指字符串a中前i个字符与字符串b中前j个字符之间的距离,当i=|a|,j=|b|时,计算结果为a,b的编辑距离;
Figure 633286DEST_PATH_IMAGE003
a,b间的编辑距离为三种操作的最小值,其中:
Figure 891092DEST_PATH_IMAGE004
表示删除ai
Figure 179991DEST_PATH_IMAGE005
表示插入bj
Figure 156037DEST_PATH_IMAGE006
表示ai替换为bj
Figure 165582DEST_PATH_IMAGE007
时,i和j中有一个值为0,a和b之间有一个为空串,此时两个字符串间的编辑距离为
Figure 809053DEST_PATH_IMAGE008
Figure 878640DEST_PATH_IMAGE009
表示当字符串a的第i个字符和字符串b的第j个字符相同是取值0,否则取值1。
CN202011357749.3A 2020-11-27 2020-11-27 一种适用于法律热线语音识别的文本纠错和补全方法 Pending CN112183073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011357749.3A CN112183073A (zh) 2020-11-27 2020-11-27 一种适用于法律热线语音识别的文本纠错和补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357749.3A CN112183073A (zh) 2020-11-27 2020-11-27 一种适用于法律热线语音识别的文本纠错和补全方法

Publications (1)

Publication Number Publication Date
CN112183073A true CN112183073A (zh) 2021-01-05

Family

ID=73918701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357749.3A Pending CN112183073A (zh) 2020-11-27 2020-11-27 一种适用于法律热线语音识别的文本纠错和补全方法

Country Status (1)

Country Link
CN (1) CN112183073A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113223509A (zh) * 2021-04-28 2021-08-06 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN113990302A (zh) * 2021-09-14 2022-01-28 北京左医科技有限公司 电话随访语音识别方法、装置及系统
EP4174848A1 (en) * 2021-10-29 2023-05-03 Televic Rail NV Improved speech to text method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004086359A2 (en) * 2003-03-26 2004-10-07 Philips Intellectual Property & Standards Gmbh System for speech recognition and correction, correction device and method for creating a lexicon of alternatives
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004086359A2 (en) * 2003-03-26 2004-10-07 Philips Intellectual Property & Standards Gmbh System for speech recognition and correction, correction device and method for creating a lexicon of alternatives
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN109657238A (zh) * 2018-12-10 2019-04-19 宁波深擎信息科技有限公司 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN110046262A (zh) * 2019-06-10 2019-07-23 南京擎盾信息科技有限公司 一种基于法律专家知识库的上下文推理方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012705A (zh) * 2021-02-24 2021-06-22 海信视像科技股份有限公司 一种语音文本的纠错方法及装置
CN113223509A (zh) * 2021-04-28 2021-08-06 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN113223509B (zh) * 2021-04-28 2022-06-10 华南理工大学 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN113990302A (zh) * 2021-09-14 2022-01-28 北京左医科技有限公司 电话随访语音识别方法、装置及系统
CN113990302B (zh) * 2021-09-14 2022-11-25 北京左医科技有限公司 电话随访语音识别方法、装置及系统
EP4174848A1 (en) * 2021-10-29 2023-05-03 Televic Rail NV Improved speech to text method and system
WO2023073234A1 (en) * 2021-10-29 2023-05-04 Televic Rail Nv Improved speech to text method and system

Similar Documents

Publication Publication Date Title
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
TW448381B (en) Automatic segmentation of a text
CN112183073A (zh) 一种适用于法律热线语音识别的文本纠错和补全方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN107315737A (zh) 一种语义逻辑处理方法及系统
US20100332217A1 (en) Method for text improvement via linguistic abstractions
WO2012039686A1 (en) Methods and systems for automated text correction
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN111881297A (zh) 语音识别文本的校正方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN111626042A (zh) 指代消解方法及装置
KR100877477B1 (ko) 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
Chaudhary et al. The ariel-cmu systems for lorehlt18
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination