CN112183073A - 一种适用于法律热线语音识别的文本纠错和补全方法 - Google Patents
一种适用于法律热线语音识别的文本纠错和补全方法 Download PDFInfo
- Publication number
- CN112183073A CN112183073A CN202011357749.3A CN202011357749A CN112183073A CN 112183073 A CN112183073 A CN 112183073A CN 202011357749 A CN202011357749 A CN 202011357749A CN 112183073 A CN112183073 A CN 112183073A
- Authority
- CN
- China
- Prior art keywords
- text
- legal
- value
- speech recognition
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000013077 scoring method Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000011835 investigation Methods 0.000 claims description 9
- 238000012098 association analyses Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 abstract description 2
- 230000009469 supplementation Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算待纠错文本与法律词汇的编辑距离,将待纠错文本进行预测,得到第一概率预测值;将编辑距离值、关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第一分数和第二分数;根据第一分数判断是否需要纠错,并进行纠正;根据第二分数判断是否需要补全,并补全文本。采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种适用于法律热线语音识别的文本纠错和补全方法。
背景技术
面向法律热线这一特定场景的语音识别,例如拨打12348、12368等司法服务热线时,因电话语音识别发展滞后、用户对法律不够熟悉、地方口音等原因,导致热点电话通话过程中的实时语音识别容易出现错漏,目前面向法律热线场景未有完善易用的语音识别文本纠错方法,法律热线领域是一个专业领域,通用的方法在该领域效果不佳。并且现有的语音识别文本纠错方法,没有提供补全方法,如果语音识别结果存在完整词汇的遗漏,就无法进行纠错。
发明内容
(一)发明目的
本发明的目的是提供一种适用于法律热线语音识别的文本纠错和补全方法以解决现有技术中法律热线的语音识别经常出现错漏的问题。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
进一步地,还包括:将所述第一分数与所述第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;将所述第二分数与所述第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;所述第一阈值为0-1;所述第二阈值为0-1。
进一步地,还包括:将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇;所述第三阈值为0-1。
进一步地,还包括:将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;将所述编辑距离值与所述第四阈值进行比较,将所述编辑距离值小于第四阈值的词作为候选词汇;所述第四阈值为0-1。
进一步地,还包括:采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;使用所述候选补全词对所述待纠错文本进行补全。
进一步地,所述注音针对多音字产生多个注音结果。
进一步地,根据所述待纠错文本,获取拼音首字母字符串;其中,针对多个注音结果产生多个首字母结果。
进一步地,还包括:进行地区调研,结合调研结果,总结地方口音;基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
进一步地,所述编辑距离的计算方法如下式:
指字符串a中前i个字符与字符串b中前j个字符之间的距离,当i=|a|,j=|b|时,计算结果为a,b的编辑距离当a,b间的编辑距离为三种操作的最小值,其中:表示删除ai;表示插入bj;表示ai替换为bj;当时,i和j中有一个值为0,a和b之间有一个为空串,此时两个字符串间的编辑距离为,表示当字符串a的第i个字符和字符串b的第j个字符相同是取值0,否则取值1。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明结合创新的拼音多特征、前沿的预训练语言模型对法律领域的语音识别文本进行纠错和补全;采用基于大规模数据的预训练语言模型和编辑距离的计算,可以大大提升通用文本语义的分析能力;针对性解决法律领域的语音识别错漏问题,进行有效的纠错和补全。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,纠错仅能解决识别错误问题,补全能够基于语义进行针对性的补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
附图说明
图1是根据本发明一实施例的适用于法律热线语音识别的文本纠错和补全方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的,其中为了清楚的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下将参照附图更详细地描述本发明。在各个附图中,相同的元件采用类似的附图标记来表示。为了清楚起见,附图中的各个部分没有按比例绘制。
图1是根据本发明一实施例的适用于法律热线语音识别的文本纠错和补全方法流程图。
如图1所示,在本实施例中,提供一种适用于法律热线语音识别的文本纠错和补全方法,包括:
S1对语音识别的初始文本分词并注音,得到待纠错文本。
导入法律实体词典,可以使用jieba分词等分词工具的搜索分词模式对语音识别文本进行分词。
根据平台的不同,采用各类拼音库(如python的PyPinyin库、Java的pinyin4j包等)对初始文本分词结果进行注音,特别地,针对多音字应产生多个注音结果。
根据注音结果,获取拼音首字母字符串,特别地,针对含有多音字的文本产生多个首字母结果。
根据业务开展情况,收集相应地区的地方口音,收集方法包括但不限于:
网络收集:从互联网上获取公开的语言学知识,整理地方口音模板;
地区调研:在实际应用过程中,针对性的进行地区调研,结合调研结果,总结地方口音。
部分通用地方口音整理如下:
①“f”读成“h”;
②“q”读成“x”;
③后鼻音读成前鼻音;
④卷舌音读成平舌音。
根据地区,基于上述收集的地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果
S2计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值。
本发明针对产生的各类拼音字符串,与词典库内的的法律词汇拼音计算编辑距离,通过编辑距离这一拼音文本特征筛选可能的候选词汇。
编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 VladimirLevenshtein 在1965年提出,也因此而得名Levenshtein Distance。LevenshteinDistance 是用来度量两个序列相似程度的指标。通俗地讲编辑距离指的是在两个单词w1,w2之间,由其中一个单词w1转换为另一个单词w2所需要的最少单字符编辑操作次数。
在这里定义的单字符编辑操作有且仅有三种:
①插入(Insertion);
②删除(Deletion);
③替换(Substitution)。
对于两个拼音字符串a、b,Levenshtein Distance表示为所述编辑距离的计算方法如下式:
S3将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值。
编辑距离是自然语言处理(NLP)基本的度量文本相似度的算法,可以作为文本相似任务的重要特征之一,其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。但是其缺点也很明显,算法基于文本自身的结构去计算,并没有办法获取到语义层面的信息。
本发明引入基于模型BERT的文本语义表示和匹配方法来进行语义层面的分析。
其步骤为构建语料,预训练语言模型采用finetune训练模型和模型预测。
其中构建语料是将所有可能词汇按照步骤S1的方式注音,并按照固定格式存入.csv文件中,finetune的主要工作是修改相应的数处理processor,数据以拼音为传入参数a,对应词汇为传入参数b,格式可以为:
[cls]拼音首字母[seg]全拼[seg]地方口音[sep]法律词汇[sep]。
传入bert预训练模型中进行迁移学习训练,最后对产生的注音结果按照上述格式进行拼接,通过模型进行相应法律词汇类标的预测,取预测结果大于第三阈值的词作为候选法律词汇。
S4采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱。
在一可选实施例中,收集法律文本语料可以包括:裁判文书、法律法规、法律咨询记录等。
S5采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值。
S6将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数。
Bert预训练后的finetune,是一种很高效的方式,节省时间,同时提高模型在垂直语料的表现。finetune过程。从商业角度讲,应着重考虑finetune之后,模型有效性的证明,以及在业务场景中的应用。本发明中bert预训练模型能够很好地抽取拼音文本中的语义信息,将相似的拼音文本对应的法律词汇凸显出来,并给出一个概率预测结果,可用于后续的纠错和补全评价。
S7将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数。
S8根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
本发明结合创新的拼音多特征、前沿的预训练语言模型对法律领域的语音识别文本进行纠错和补全;采用基于大规模数据的预训练语言模型和编辑距离的计算,可以大大提升通用文本语义的分析能力;针对性解决法律领域的语音识别错漏问题,进行有效的纠错和补全。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,纠错仅能解决识别错误问题,补全能够基于语义进行针对性的补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
将所述编辑距离值小于3的注音词汇作为候选词汇集合,缩小后续的计算范围,减少计算量。
取待纠错的注音词(例如nihao)编辑距离小于第四阈值的注音词汇(lihao、ninhao等)作为候选词汇集合,缩小后续的计算范围,减少计算量。
本质是计算对nihao而言lihao等候选词的编辑距离,进行归一化(比如min-max归一化)得到一个0-1的值,和预训练语言模型的概率值(0-1之间)、关联语义分析结果(0-1之间),求三个值的加权平均值后,按照第一阈值确定是否纠错。
在一可选实施例中,收集法律文本语料,如裁判文书、法律法规、法律咨询记录等,通过中文分词、去停用词、人工校验等步骤构建法律领域词典。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述第一分数与所述第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述第二分数与所述第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;
在一可选实施例中,所述第一阈值的范围是0-1。
在一可选实施例中,所述第二阈值的范围是0-1。
在一优选实施例中,所述第一阈值为0.8。
在一优选实施例中,所述第一阈值为0.73。
抽象语义表示(Abstract Meaning Representation,AMR)将一个句子的抽象语义表示为一个单根有向无环图,在AMR图中,通常,一个节点对应于一个概念,在特殊情况下(如专有名词等)由一个子图整体对应于一个概念,语义概念之间的语义关系则对应于相应节点之间的有向边;AMR是一种全新的、领域无关的句子语义表示方法。
在一可选实施例中,将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;将所述第二概率预测值与所述第三阈值进行比较,将所述概率预测值大于第三阈值的词作为候选词汇。
在一可选实施例中,所述第三阈值的范围是0-1。
在一优选实施例中,所述第三阈值为0.85。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;将所述编辑距离值与所述第四阈值进行比较,若所述编辑距离值小于第四阈值的词作为候选词汇。
在一可选实施例中,所述第四阈值的范围是0-1。
在一优选实施例中,所述第四阈值为0.92。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;使用所述候选补全词对所述待纠错文本进行补全。
使用候选法律词汇进行替换,生成原始文本和替换文本的集合,使用深度学习算法(LSTM-CRF等)对集合内的文本的进行实体识别。以核心实体为根节点,基于法律抽象语义知识图谱进行关联分析,根据知识图谱获取核心实体的关联词汇集合,与待纠错语音识别文本进行匹配,发现候选纠错对和候选补全词,将知识图谱的对应节点权重作为关联语义分析的结果。
使用候选法律词汇进行替换,生成原始文本和替换文本的集合,使用基于深度学习的分类算法(Bert-BiLSTM等)对集合内的文本的进行意图识别
基于法律抽象语义知识图谱进行意图关联分析,获取用户问题可能缺失的法律要素集合,以知识图谱对应节点的权重作为分析结果。
在一可选实施例中,所述注音针对多音字产生多个注音结果。
在一可选实施例中,根据所述待纠错文本,获取拼音首字母字符串;其中,针对多个注音结果产生多个首字母结果。
在一可选实施例中,适用于法律热线语音识别的文本纠错和补全方法还可以包括:进行地区调研,结合调研结果,总结地方口音;基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
在本发明另一实施例中,提供了一种基于法律热线语音识别的文本纠错和补全系统,包括上述方案任一项所述的适用于法律热线语音识别的文本纠错和补全方法进行语音识别的文本纠错和补全。
本发明旨在保护一种适用于法律热线语音识别的文本纠错和补全方法,包括:对语音识别的初始文本分词并注音,得到待纠错文本;计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。本发明采用预训练语言模型和编辑距离的计算,可以针对性解决法律领域的语音识别错漏问题,进行有效的纠错。另外,本发明在进行语音识别纠错的同时,对法律领域的语音识别文本进行补全,将语音识别文本的语义补充完整,方便后续的理解与使用。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种适用于法律热线语音识别的文本纠错和补全方法,其特征在于,包括:
对语音识别的初始文本分词并注音,得到待纠错文本;
计算所述待纠错文本与法律词汇的标准拼音之间的编辑距离,得到编辑距离值;
将所述待纠错文本传入预训练语言模型进行预测,得到第一概率预测值;
采用抽象语义表示算法对收集的法律文本语料进行抽象语义表示,构建带权重的法律抽象语义知识图谱;
采用抽象语义表示算法对所述纠错文本进行抽象语义表示,在所述法律抽象语义知识图谱中进行关联性分析,获得关联语义权重值;
将所述编辑距离值、所述关联语义权重值和所述第一概率预测值使用打分法进行加权打分,得到第一分数;
将所述关联语义权重值和第一概率预测值使用打分法进行加权打分,得到第二分数;
根据所述第一分数判断是否需要纠错,并进行纠正;根据所述第二分数判断是否需要补全,并补全文本。
2.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述第一分数与第一阈值进行比较,若所述第一分数大于所述第一阈值,针对需要纠错的文本进行纠正;
将所述第二分数与第二阈值进行比较,若所述第二分数大于所述第二阈值,针对需要补全的文本进行补全;
所述第一阈值为0-1;
所述第二阈值为0-1。
3.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本传入预训练语言模型进行法律词汇类标的预测,得到第二概率预测值;
将所述第二概率预测值与第三阈值进行比较,将所述概率预测值大于所述第三阈值的词作为候选词汇;
所述第三阈值为0-1。
4.根据权利要求2所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述待纠错文本与法律词典中的词计算编辑距离,得到编辑距离值;
将所述编辑距离值与第四阈值进行比较,将所述编辑距离值小于所述第四阈值的词作为候选词汇;
所述第四阈值为0-1。
5.根据权利要求3或4所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
采用所述候选词汇进行替换,得到替换文本,使用深度学习算法对所述替换文本进行实体识别;
以核心实体为根节点,基于所述法律抽象语义知识图谱进行关联分析,根据所述法律抽象语义知识图谱获取核心实体的关联词汇集合,与所述待纠错文本进行匹配,得到候选补全词;
使用所述候选补全词对所述待纠错文本进行补全。
6.根据权利要求1所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,
所述注音针对多音字产生多个注音结果。
7.根据权利要求6所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,
根据所述待纠错文本,获取拼音首字母字符串;
其中,针对多个注音结果产生多个首字母结果。
8.根据权利要求5所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
进行地区调研,结合调研结果,总结地方口音;
基于收集的所述地方口音,对注音结果和拼音首字母结果进行口音替换,得到新的注音结果和拼音首字母结果。
9.根据权利要求8所述的适用于法律热线语音识别的文本纠错和补全方法,其特征在于,还包括:
将所述编辑距离值小于3的注音词汇作为候选词汇集合,缩小后续的计算范围,减少计算量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357749.3A CN112183073A (zh) | 2020-11-27 | 2020-11-27 | 一种适用于法律热线语音识别的文本纠错和补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357749.3A CN112183073A (zh) | 2020-11-27 | 2020-11-27 | 一种适用于法律热线语音识别的文本纠错和补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183073A true CN112183073A (zh) | 2021-01-05 |
Family
ID=73918701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357749.3A Pending CN112183073A (zh) | 2020-11-27 | 2020-11-27 | 一种适用于法律热线语音识别的文本纠错和补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183073A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113990302A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
EP4174848A1 (en) * | 2021-10-29 | 2023-05-03 | Televic Rail NV | Improved speech to text method and system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004086359A2 (en) * | 2003-03-26 | 2004-10-07 | Philips Intellectual Property & Standards Gmbh | System for speech recognition and correction, correction device and method for creating a lexicon of alternatives |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN110046262A (zh) * | 2019-06-10 | 2019-07-23 | 南京擎盾信息科技有限公司 | 一种基于法律专家知识库的上下文推理方法 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
-
2020
- 2020-11-27 CN CN202011357749.3A patent/CN112183073A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004086359A2 (en) * | 2003-03-26 | 2004-10-07 | Philips Intellectual Property & Standards Gmbh | System for speech recognition and correction, correction device and method for creating a lexicon of alternatives |
CN107741928A (zh) * | 2017-10-13 | 2018-02-27 | 四川长虹电器股份有限公司 | 一种基于领域识别的对语音识别后文本纠错的方法 |
CN109753636A (zh) * | 2017-11-01 | 2019-05-14 | 阿里巴巴集团控股有限公司 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
CN109657238A (zh) * | 2018-12-10 | 2019-04-19 | 宁波深擎信息科技有限公司 | 基于知识图谱的上下文识别补全方法、系统、终端及介质 |
CN110046262A (zh) * | 2019-06-10 | 2019-07-23 | 南京擎盾信息科技有限公司 | 一种基于法律专家知识库的上下文推理方法 |
CN110377715A (zh) * | 2019-07-23 | 2019-10-25 | 天津汇智星源信息技术有限公司 | 基于法律知识图谱的推理式精准智能问答方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113012705A (zh) * | 2021-02-24 | 2021-06-22 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
CN113223509A (zh) * | 2021-04-28 | 2021-08-06 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113223509B (zh) * | 2021-04-28 | 2022-06-10 | 华南理工大学 | 一种应用于多人混杂场景下的模糊语句识别方法及系统 |
CN113990302A (zh) * | 2021-09-14 | 2022-01-28 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
CN113990302B (zh) * | 2021-09-14 | 2022-11-25 | 北京左医科技有限公司 | 电话随访语音识别方法、装置及系统 |
EP4174848A1 (en) * | 2021-10-29 | 2023-05-03 | Televic Rail NV | Improved speech to text method and system |
WO2023073234A1 (en) * | 2021-10-29 | 2023-05-04 | Televic Rail Nv | Improved speech to text method and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
TW448381B (en) | Automatic segmentation of a text | |
CN112183073A (zh) | 一种适用于法律热线语音识别的文本纠错和补全方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN107315737A (zh) | 一种语义逻辑处理方法及系统 | |
US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
CN110134950B (zh) | 一种字词结合的文本自动校对方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112447172B (zh) | 一种语音识别文本的质量提升方法和装置 | |
CN111626042A (zh) | 指代消解方法及装置 | |
KR100877477B1 (ko) | 백오프 엔-그램 자질을 이용한 개체명 인식 장치 및 그방법 | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 | |
CN113822052A (zh) | 一种文本错误检测方法、装置、电子设备及存储介质 | |
Chaudhary et al. | The ariel-cmu systems for lorehlt18 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |