CN111680476B - 一种用于智能生成类文本的业务热词识别转换的方法 - Google Patents
一种用于智能生成类文本的业务热词识别转换的方法 Download PDFInfo
- Publication number
- CN111680476B CN111680476B CN202010457472.5A CN202010457472A CN111680476B CN 111680476 B CN111680476 B CN 111680476B CN 202010457472 A CN202010457472 A CN 202010457472A CN 111680476 B CN111680476 B CN 111680476B
- Authority
- CN
- China
- Prior art keywords
- words
- word
- similarity
- hot
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 5
- 239000000470 constituent Substances 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于智能生成类文本的业务热词识别转换的方法,收集语料并构建业务热词库;将智能生成得到的文本按业务热词的长度进行划分,并分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;对保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;使用语料训练统计语言模型,将保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;根据语言模型打分结果,判定替换是否保留。可以快速和智能地为智能生成的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。
Description
技术领域
本发明涉及自然语言处理领域,特别是指一种用于智能生成类文本的业务热词识别转换的方法。
背景技术
目前机器学习与深度学习技术发展迅猛,涌现出许多的网络模型架构,可以用于智能语音识别、智能图像识别等任务,并逐渐走向落地应用。但此类机器学习与深度学习模型的学习成本较大,需要经过大量的数据经过较长时间的训练才能得到模型,模型的更新同样也需要经过重新训练或者迁移学习的方法,时间成本和劳动力成本都比较较大。而业务热词、流行热词的更新较快,仅为满足热词的准确识别而从新训练模型不切实际,直接进行相似度匹配替换又往往容易产生错误替换的情况。
发明内容
本发明提出一种用于智能生成类文本的业务热词识别转换的方法,可以较为快速和智能地为智能生成后得到的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习,其学习成本低,可以快速实现更新。
本发明的技术方案是这样实现的:
一种用于智能生成类文本的业务热词识别转换的方法,包括以下步骤:
S1,收集语料,并构建业务热词库;
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。
优选的,步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;
S112,收集业务场景下的语料,并进行数据清洗;
S113,将通用类语料与业务场景下的语料按一定比例进行合并。
优选的,步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。
优选的,步骤S2和S3中相似度匹配计算指的是对发音或字形相似度进行匹配计算,对于语音识别生成的文本,待转换词与热词一般发音相似,将词转为其所构成的拼音或者音素,对于OCR图像识别生成的文本,待转换词与热词一般字形相似,将词中的每一个字转为共所构成的笔画或者偏旁部首,根据组成元素对热词与文本中的词进行相似度计算。
优选的,步骤S2中一次简要快速的相似度匹配计算指的是将热词与文本中的词中的字转为所述的组成元素并进行拼接形成词的组成元素,将两者的组成元素进行编辑距离计算,当编辑距离大于设定的阈值即判定其为不相似。
优选的,步骤S3中具体的相似度匹配计算指的是
以字为单元进行计算,并加以权重,以编辑距离/元素组成长度,作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算,过程中考虑不同元素对相似度的影响程度加以不同的加权比重;
或者,以词中的字为单元进行计算,且词的相似度计算需要考虑词中所有字的相似度的极差值,得到词中每个字的相似度后求其均值和极差值,以均值加上乘以一定缩小系数后的极差值作为字的相似度。
优选的,步骤S4中统计语言模型采用的是N元统计语言模型,将收集到的语料作为统计语言模型的语料库,统计语言模型在对语料库中出现的字的频率进行统计后,得到基于语料库的一元至N元字组合的概率语言模型;使用概率语言模型对句子进行打分,得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率,然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值,以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率,作为句子流畅度的评价标准。
本发明的有益效果在于:可以较为快速和智能地为智能生成后得到的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习,其学习成本低,可以快速实现更新。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为用于智能生成类文本的业务热词识别转换的方法的流程示意图。
图2为相似度匹配计算过程示意图。
图3为快速相似度匹配与具体相似度(拼音)匹配示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1-图3所示,本发明提出了一种用于智能生成类文本的业务热词识别转换的方法,包括以下步骤:
S1,收集语料,并构建业务热词库;
步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;根据智能生成文本的特点,通过字符串替换与正则匹配,过滤掉语料中的特殊字符及其它生成文本中所不包含的字符,并按语言模型统计要求做相关处理,如分词或者分字等;
S112,收集业务场景下的语料,并进行数据清洗;数据清洗环节与上一步相同,所收集的业务场景下的语料应该包括较多的带有业务场景下热词的语句,用于语言模型统计学习带有热词语句的常用表达形式。
S113,将通用类语料与业务场景下的语料按一定比例进行合并,保证数据的平衡性。
步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;结合业务场景需要,将业务场景下专有的日常表达不会出现的名词加入热词库。
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。
加入热词库中的热词是业务场景下所特有的,且日常表达中不常出现导致文本智能生成容易产生生成错误的词汇,使得热词的识别转化更具针对性。热词库的排序顺序代表了对句中文本的识别转换顺序,按此方法进行排序,可以避免重复识别转换的情况,并加快识别转换的速度。
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;通过一次文本相似度匹配,可以过滤掉绝大部分的相似度低的词,提升匹配识别的速度。识别过滤速度快,可以快速过滤绝大部分不相似的词,减少计算资源,提升识别速度。将热词与文本中的词中的字转为步骤7中所述的组成元素并进行拼接形成词的组成元素,将两者的组成元素进行编辑距离计算,当编辑距离大于设定的阈值即判定其为不相似。
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;通过第二次具体的相似度匹配计算,保留真正相似度高的词与热词进行替换。
以字为单元进行计算,并加以权重。以编辑距离/元素组成长度,作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算,过程中考虑不同元素对相似度的影响程度加以不同的加权比重,如按拼音进行相似度计算时,对于‘b/p’此类发音相似的拼音元素,应对其编辑距离乘以0.5的系数减少其编辑距离,对于‘ian/an’此类元素组成相同但发音相关较大的,应对其编辑距离乘以2的惩罚系数加大其编辑距离。
以词中的字为单元进行计算,且词的相似度计算需要考虑词中所有字的相似度的极差值。按计算词中每个字的相似度的办法,得到词中每个字的相似度后求其均值和极差值,以均值加上乘以一定缩小系数后的极差值作为字的相似度。采用此法,其目的在于,当匹配词与热词中有个字极为不相似时,较大程度上减少其相似度,避免误纠。
步骤S2和S3中相似度匹配计算指的是所选用的相似度匹配可以是发音相似度或者字形相似度等,这需要根据智能生成的文本的特点选用,即对于语音识别生成的文本,待转换词与热词一般发音相似,可以将词转为其所构成的拼音或者音素,对于OCR图像识别生成的文本,待转换词与热词一般字形相似,可以将词中的每一个字转为共所构成的笔画或者偏旁部首,然后根据这些组成元素,对热词与文本中的词进行相似度计算。按照前向最大匹配的算法思想,匹配顺序从左到右,匹配词的长度先长后短,当识别匹配成功并完成替换后,匹配指针位置移至完成匹配的词后面,继续识别匹配。
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
句中词与热词相似度高并不是热词可以替换的充分条件,需要加入语言模型进行判断。所加入的语言模型在统计过大量通用语料与业务语料后,可以对替换前后的语句的流畅度进行打分,保留打分结果较高的句子,可以避免误纠的情况,体现热词替换的智能性。
步骤S4中统计语言模型采用的是N元统计语言模型,将收集到的语料作为统计语言模型的语料库,统计语言模型在对语料库中出现的字的频率进行统计后,得到基于语料库的一元至N元字组合的概率语言模型;使用概率语言模型对句子进行打分,得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率,然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值,以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率,作为句子流畅度的评价标准。
统计语言模型更新速度快。其采用的方法是统计计算的方法,可以统计语料生成其相应的语言模型,同时对计算机配置要求也不高。可以利用现有的语言模型统计工具生成语言模型,如srilm和kenlm等。便于定期将带有热词的相关语料更新至语料库中,重新生成带有热词信息的语言模型。
步骤S4所述的统计语言模型为替换前后的句子进行打分,替换前后的句子仅在替换词位置有所不同,两个句子评分的差异影响主要在于热词自身及热词前后各N-1个字的组合。主要体现两方面特点,一是替换成热词后,热词自身已经形成多元组合,相比替换前其句子在热词自身的位置更容易得到较高的分值,即在业务场景下,在经过相似度筛选之后,当出现与热词相似度较高的组合,模型会优先考虑将其替换为热词。二是替换的热词发生在错误替换的情况下,热词与前后N-1个字容易形成语言模型语料中极少见的组合,语言模型在对错误替换后的句子评分时对热词与前后N-1个字形成的组合将会给出较低概率值,此时,在经过连乘后导致错误替换的句子的整体流畅度评分往往会低于替换前的评分。以此实现利用语言模型较大程度上减少误纠的情况,提升热词替换的智能性。
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。
统计语言模型打分结果的准确性,取决于语言模型语料库中的语料,主要在于两点:一方面是语料库的体量,语料库体量较大,语言模型见过的组合越多,在统计学习过程中更能得到习惯表达的字的组合。另一方面是通用语料与业务场景下的语料的比例应相对平衡,数据不平衡的情况下语言模型的评价会有所偏向,不利于语言模型的正确打分。
本发明可以较为快速和智能地为智能生成后得到的文本进行识别匹配,在文本中的词汇与热词相似度较高及替换后语句流畅度较高的情况下实现智能替换。其中判别语句流畅度的语言模型的是基于文本统计学习,其学习成本低,可以快速实现更新。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,包括以下步骤:
S1,收集语料,并构建业务热词库;
步骤S1中收集语料具体包括以下步骤:
S111,收集通用类语料,并进行数据清洗;
S112,收集业务场景下的语料,并进行数据清洗;
S113,将通用类语料与业务场景下的语料按一定比例进行合并;
S2,将智能生成得到的文本,按热词库中业务热词的长度进行划分,并将划分得到的词分别与热词进行一次简要快速的相似度匹配计算,过滤掉绝大部分相似度较低的划分词;
S3,对S2中保留的相似度较高的划分词,再进行一次具体的相似度匹配计算,保留相似度高的划分词;
步骤S3中具体的相似度匹配计算指的是:
以字为单元进行计算,并加以权重,以编辑距离/元素组成长度,作为相似度标准对词中的每一个字与热词中的每一个字按其元素组成进行相似度计算,过程中考虑不同元素对相似度的影响程度加以不同的加权比重;
或者,以词中的字为单元进行计算,且词的相似度计算需要考虑词中所有字的相似度的极差值,得到词中每个字的相似度后求其均值和极差值,以均值加上乘以一定缩小系数后的极差值作为字的相似度;
S4,使用S1所述的语料训练统计语言模型,将S3保留的相似度高的划分词,采用热词对其进行替换形成新的句子文本,用预训练好的语言模型对替换前与替换后两个句子进行打分;
S5,根据S4中所述的语言模型打分结果,判定S4中替换是否保留。
2.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S1中构建业务热词库具体包括以下步骤:
S121,利用文字统计工具对收集到的业务场景下的语料进行不同长度词的词频统计,保留词频较高的词作为候选词,去除常用的非热词词汇,并筛选出业务场景下的热词加入热词库中;
S122,结合智能生成类的文本特点,将容易生成错误的专有名词加入热词库中;
S123,将热词库中热词以词的长度进行排序,热词长度长的排在前面,短的排在后面;对于长度一致的热词,将统计词频高的热词排在前面,统计词频低的排在后面。
3.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S2和S3中相似度匹配计算指的是对发音或字形相似度进行匹配计算,对于语音识别生成的文本,待转换词与热词一般发音相似,将词转为其所构成的拼音或者音素,对于OCR图像识别生成的文本,待转换词与热词一般字形相似,将词中的每一个字转为共所构成的笔画或者偏旁部首,根据组成元素对热词与文本中的词进行相似度计算。
4.根据权利要求3所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S2中一次简要快速的相似度匹配计算指的是将热词与文本中的词中的字转为所述的组成元素并进行拼接形成词的组成元素,将两者的组成元素进行编辑距离计算,当编辑距离大于设定的阈值即判定其为不相似。
5.根据权利要求1所述的一种用于智能生成类文本的业务热词识别转换的方法,其特征在于,步骤S4中统计语言模型采用的是N元统计语言模型,将收集到的语料作为统计语言模型的语料库,统计语言模型在对语料库中出现的字的频率进行统计后,得到基于语料库的一元至N元字组合的概率语言模型;使用概率语言模型对句子进行打分,得到句子从左至右每一个字在前面N-1个字发生的条件下的该字出现的概率,然后通过概率链式法则得到句中所有字以句子中的顺序出现的整体概率值,以此概率值来表征该句子中的字的组合在语料库中的最大共现组合概率,作为句子流畅度的评价标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010457472.5A CN111680476B (zh) | 2020-05-26 | 2020-05-26 | 一种用于智能生成类文本的业务热词识别转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010457472.5A CN111680476B (zh) | 2020-05-26 | 2020-05-26 | 一种用于智能生成类文本的业务热词识别转换的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680476A CN111680476A (zh) | 2020-09-18 |
CN111680476B true CN111680476B (zh) | 2024-01-30 |
Family
ID=72434871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010457472.5A Active CN111680476B (zh) | 2020-05-26 | 2020-05-26 | 一种用于智能生成类文本的业务热词识别转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680476B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112349278A (zh) * | 2020-11-12 | 2021-02-09 | 苏州思必驰信息科技有限公司 | 本地热词训练和识别方法及装置 |
CN112463953B (zh) * | 2020-11-30 | 2022-06-17 | 杭州孚嘉科技有限公司 | 一种基于税务咨询问题的热句排序方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180084A (zh) * | 2017-05-05 | 2017-09-19 | 上海木爷机器人技术有限公司 | 词库更新方法及装置 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
-
2020
- 2020-05-26 CN CN202010457472.5A patent/CN111680476B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180084A (zh) * | 2017-05-05 | 2017-09-19 | 上海木爷机器人技术有限公司 | 词库更新方法及装置 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111680476A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN110517693B (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN108647191B (zh) | 一种基于有监督情感文本和词向量的情感词典构建方法 | |
CN112599128B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN110852040B (zh) | 一种标点预测模型训练方法及文本标点确定方法 | |
CN111680476B (zh) | 一种用于智能生成类文本的业务热词识别转换的方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
CN110717341A (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112183073A (zh) | 一种适用于法律热线语音识别的文本纠错和补全方法 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |