CN111090720A - 一种热词的添加方法和装置 - Google Patents

一种热词的添加方法和装置 Download PDF

Info

Publication number
CN111090720A
CN111090720A CN201911158216.XA CN201911158216A CN111090720A CN 111090720 A CN111090720 A CN 111090720A CN 201911158216 A CN201911158216 A CN 201911158216A CN 111090720 A CN111090720 A CN 111090720A
Authority
CN
China
Prior art keywords
candidate
result
index
score
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911158216.XA
Other languages
English (en)
Other versions
CN111090720B (zh
Inventor
吴帅
李健
张连毅
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN201911158216.XA priority Critical patent/CN111090720B/zh
Publication of CN111090720A publication Critical patent/CN111090720A/zh
Application granted granted Critical
Publication of CN111090720B publication Critical patent/CN111090720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种热词的添加方法和装置,所述方法包括:读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;获取所述候选结果的索引列表;在所述索引列表中查找到与所述热词索引匹配的目标索引;采用所述目标索引确定所述候选结果中的被替换词;采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;获取所述候选结果对应的候选评分;采用所述候选评分计算所述新候选结果的新候选评分。本发明实施例能够直接在候选结果上进行微调替换,因此既做到不占用大量的时间和算力,也能在保证调整精度的前提下添加热词。

Description

一种热词的添加方法和装置
技术领域
本发明实施例涉及自然语言处理技术领域,特别是涉及一种热词的添加方法和一种热词的添加装置。
背景技术
目前,由于互联网的大数据爆发,有大量的数据需要转化成文本,供人类阅读或储存,因此将数据转写成文本的技术有着广阔的市场前景。这些技术包括但不限于机器翻译、语音识别、光学字符识别、输入法和自动问答,其中,语言模型扮演着重要的角色。
具体来说,语言模型是自然语言(人类交流语言)处理中的核心问题。它是为了描述自然语言中的特定关系,通常是描述某个自然语言单元出现的概率,从而根据自然语言客观事实,进行抽象建模得到的数学模型。传统的语言模型包括多元模型、指数回归模型和隐马尔可夫模型等,新兴的语言模型包括神经网络模型,诸如循环神经网络,长短期记忆模型及注意力模型等。
语言模型通常是根据历史语料建立起来的。随着科技的高速发展,社会变化日新月异,这同时带来了人类语言的快速演化,诸如新词、外来语和流行语的增加,因此,这就难免导致语言模型随着时间的推移而失效,进一步导致数据转写文本的技术落后。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种热词的添加方法和相应的一种热词的添加装置。
为了解决上述问题,本发明实施例公开了一种热词的添加方法,包括:
读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
获取所述候选结果的索引列表;
在所述索引列表中查找到与所述热词索引匹配的目标索引;
采用所述目标索引确定所述候选结果中的被替换词;
采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
获取所述候选结果对应的候选评分;
采用所述候选评分计算所述新候选结果的新候选评分。
优选地,在所述读取热词词典和候选结果的步骤之后,还包括:
将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
优选地,所述获取所述候选结果的索引列表的步骤,包括:
若所述候选结果具有对应的索引列表,则提取所述候选结果对应的索引列表;
若所述候选结果不具有对应的索引列表,则采用预设索引词典生成所述候选结果的索引列表。
优选地,所述采用所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
获取预先训练好的语言模型、混淆矩阵和模型权重;
采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分。
优选地,所述采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
采用所述语言模型计算所述热词文本的第一语言模型概率;
采用所述语言模型计算所述被替换词的第二语言模型概率;
采用所述混淆矩阵计算所述热词文本的第一转移概率;
采用所述混淆矩阵计算所述被替换词的第二转移概率;
按照预设评分计算规则,采用所述模型权重、候选评分、第一语言模型概率、第二语言模型概率、第一转移概率和第二转移概率计算所述新候选结果的新候选评分。
优选地,在所述采用所述候选评分计算所述新候选结果的新候选评分的步骤之后,还包括:
获取所述新候选结果对应的候选评分,以及,所述候选结果的候选评分;
将所述候选评分和所述候选评分按照从高到低的顺序,提取出m个候选结果和/或新候选结果,所述m为正整数。
本发明实施例还公开了一种热词的添加装置,包括:
热词词典读取模块,用于读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
索引列表获取模块,用于获取所述候选结果的索引列表;
目标索引查找模块,用于在所述索引列表中查找到与所述热词索引匹配的目标索引;
被替换词确定模块,用于采用所述目标索引确定所述候选结果中的被替换词;
替换模块,用于采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
候选评分获取模块,用于获取所述候选结果对应的候选评分;
新候选评分计算模块,用于采用所述候选评分计算所述新候选结果的新候选评分。
优选地,还包括:
候选结果提取模块,用于将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
本发明实施例还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如本发明实施例所述的一个或多个的方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的一个或多个的方法的步骤。
本发明实施例包括以下优点:
在本发明实施例中,读取包括热词文本和热词索引的热词词典,以及候选结果,获取候选结果的索引列表,并在索引列表中查找到与热词索引匹配的目标索引,以采用目标索引确定候选结果中的被替换词并利用热词文本进行替换,得到新候选结果,最后采用候选结果的候选评分计算新候选结果的新候选评分。本发明实施例利用索引对候选结果进行修正得到新候选结果并重新打分得到新候选评分,由于能够直接在候选结果上进行微调替换,因此既做到不占用大量的时间和算力,也能在保证调整精度的前提下添加热词。
附图说明
图1是本发明的一种热词的添加方法实施例1的步骤流程图;
图2是本发明的一种热词的添加方法实施例2的步骤流程图;
图3是本发明的一种热词的添加装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例主要涉及自然语言处理中的文本解析方向。通过状态转移图应用语言模型的方法具有广泛应用途径。在机器翻译、语音识别、光学字符识别、输入法和自动问答系统中承担着将文本、语音、图像或拼音等信息转化成可读文本的关键作用。其中,为了保持这些应用场景能够跟上自然语言的演化或者适用领域的变化,热词更新是不可或缺的技术。
其中,狭义上热词指的是随着时间推移,自然语言新增词汇,如新词、外来语和流行语等。正是因为这些词汇,导致旧的语言模型上词汇匮乏,需要更迭,广义上热词指的是任何语言模型中尚未涵盖的词汇,学术上又称之为集外词,甚至包括语料中稀缺用语。
目前热词更新技术主要分为两类:一种是从源头上作修改,增添新的包含热词的语料,重新跑一遍流程;另外一种是在结果上作修正,根据候选结果,还原热词可能出现的位置,再调整。
从源头上修改是最直接的方法,是根据含有热词的新语料,重新训练生成新的语言模型,再将新的语言模型转化成状态转移图。其中,状态转移图的作用是描述状态之间的转移关系,为了快速读取语言模型,通常将其转化为状态转移图的格式以方便快速读取。
由于模型训练的过程耗时及长,转化过程中同样也要消耗大量的计算资源。因此,这种重新训练新的语言模型的方法要消耗大量的时间和计算成本。但由于热词更新的需求比较频繁变换,而这种方法具有一定的延时性,大大影响实际应用体验。近年来,业界涌现出一些增量模型训练的方法,能够在训练新的语言模型这一步上缩短时间,但是这仅仅能够缩小训练模型这一步的时间,整体看来作用依旧有限。当然,撇开大量消耗时间和算力这明显的缺点不谈,其优点也同样是显著的,那就是热词添加的精度能够大幅提高。
相比从源头修改的方法,从结果上修正的方法耗时短,得益于直接对结果文本(候选结果)上做操作,跳过了模型训练和生成状态转移图的重新操作。这类修改方法多式多样,有简单的替换,也有根据混淆程序构建混淆矩阵作变换,也有着利用神经网络模型纠错的方法。当然,由于是在结果文本上在修改,丢失了大量的输入信息,所以在添加精度上就大打折扣,既有可能遗漏修正结果,也有可能产生错误修正。
总之,上述两种方法各有千秋,前者,保证了精度,但是占用大量资源,而后者资源消耗虽少,但是精度难以保证。相当于前者治本,后者治标。
本发明实施例突破了传统两种方法的局限,而是巧妙的从中间步骤下手,直接从状态转移图上做修改,跳过了复杂的计算,利用语言模型和索引信息,对候选结果进行修正并重打分。相比上述的两种方法,本发明实施例能够直接在候选结果上进行微调替换,通过这样的方式,既做到不占用大量的时间和算力,也能在保证调整精度的前提下添加热词。
本发明实施例可应用于机器翻译中的补充表达方式,语音识别和光学字符识别中解码生成文本,输入法中生成新的短语或词组和自动问答中新增回答方式,在一定程度上满足商业人员进行商业自然语言解析引擎动态更新升级的需求,同时在一定程度上可以满足用户对特定领域(如机器翻译文本、语音识别文本)进行补充功能的需求。
下面对于本发明实施例进行详细介绍。
参照图1,示出了本发明的一种热词的添加方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引。
在本发明实施例中,热词词典即需要添加的热词,格式不限,包含以下信息:热词文本、热词索引。其中,热词文本是指的具体文本数据,比如″杠精″、″佛系″、″官宣″等;热词索引是指的能够查找到相应文本数据的索引信息,包含但不限于拼音和发音,比如对于文本数据″杠精″,输入索引信息″gangjing″可以相应查找到。
候选结果为解码器解码生成的候选文本,在需要时可以根据用户输入的索引信息快速查找到相应的候选结果以提供给用户。其中,解码通常是指将其它不可识别的信号转换为可识别的信号。在本发明实施例中,是指将其它非文本数据转换成可识别文本(自然语言)。相应的,解码器指的是将其它非文本数据转化为可识别文本的装置,如语音识别解码器根据音频流生成文字,输入法根据输入的键盘流生成文字等。
具体来说,在输入法场景中,用户输入索引信息″pinyin″,则可以输出候选结果″拼音″,在机器翻译场景中,用户输入索引信息″cake″,则可以输出候选结果″蛋糕″。
此外,候选结果具有对应的候选评分,评分越高表示该候选结果被用户需要的概率越大,因此当基于用户输入的索引信息查找到多个候选结果时,可以按照评分来将候选结果展示给用户,比如仅将评分在前5名的候选结果展示给用户。
步骤102,获取所述候选结果的索引列表。
在具体实现中,候选结果具有对应索引列表,候选结果可以包括一个或者以上的词汇,索引列表则可以包含与词汇相应的一个或者以上的索引信息。例如,假设候选结果为″我是中国人″,那么索引列表可以为″woshizhongguoren″。
步骤103,在所述索引列表中查找到与所述热词索引匹配的目标索引。
在索引列表中可以包括多个索引信息,因此在索引列表中查找热词索引对应的目标索引时,可以不是包含索引列表中的全部索引信息,而是可以根据热词索引在索引列表查找出相应的位置。
假设″shizhong″为热词索引,则只需要在索引列表中查找″shizhong″这个索引信息,具体地,查找到的目标索引为索引列表″woshizhongguoren″中下划线位置处的索引信息。当然,目标索引也可以是包含索引列表中的全部索引信息,本发明实施例对此并不限制。
步骤104,采用所述目标索引确定所述候选结果中的被替换词。
步骤105,采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果。
在确定索引列表中的目标索引后,就可以根据目标索引确定候选结果中的被替换词。比如假设候选结果为″我是中国人″,索引列表为″woshizhongguoren″,目标索引为″shizhong″,那么可以确定候选结果中″我是中国人″中下划线位置处即为被替换词。
在确定了候选结果中的被替换词,就可以将热词文本替换所述候选结果中的被替换词,从而得到新候选结果。比如,热词文本为″失重″,替换候选结果中″我是中国人″的被替换词后,得到新候选结果为″我是失重人″。
需要注意是,生成的新候选结果是基于原有的候选结果的基础上复制所得,因此,新候选结果的生成时,原有的候选结果仍然保留。
步骤106,获取所述候选结果对应的候选评分。
步骤107,采用所述候选评分计算所述新候选结果的新候选评分。
在实际应用中,比如在输入法场景或者机器翻译场景中,对于新候选结果,还需要进一步提供其对应的新候选评分,以在各种应用中基于新候选评分来提供给用户。在一种优选示例中,本发明实施例可以基于候选结果的候选评分来重新计算新候选结果的新候选评分。
在本发明实施例中,读取包括热词文本和热词索引的热词词典,以及候选结果,获取候选结果的索引列表,并在索引列表中查找到与热词索引匹配的目标索引,以采用目标索引确定候选结果中的被替换词并利用热词文本进行替换,得到新候选结果,最后采用候选结果的候选评分计算新候选结果的新候选评分。本发明实施例利用索引对候选结果进行修正得到新候选结果并重新打分得到新候选评分,由于能够直接在候选结果上进行微调替换,因此既做到不占用大量的时间和算力,也能在保证调整精度的前提下添加热词。
参照图2,示出了本发明的一种热词的添加方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引。
本发明实施例在添加热词时,首先需要读取热词词典和候选结果,而在实际应用中,候选结果可能有多个,如果将热词与所有的候选结果都相应生成新候选结果,那么得到的新候选结果可能数量很多,除此之外,得到的新候选结果也可能并不是都符合实际需求的,因此本发明实施例还获取候选结果后,还将进行筛选的操作,具体为:将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
在一种优选示例中,每个候选结果会有相应的候选评分,本发明实施例对于获取到的候选结果,可以仅读取候选评分在前n位的候选结果,也即是说本发明实施例可以按候选评分从高到低排序选取最优的n个候选结果。
步骤202,若所述候选结果具有对应的索引列表,则提取所述候选结果对应的索引列表;若所述候选结果不具有对应的索引列表,则采用预设索引词典生成所述候选结果的索引列表。
本发明实施例在读取热词词典和候选结果后,还将进一步获取候选结果的索引列表,其中,需要根据实际情况分以下两种方式进行索引列表的生成。
1、当候选结果已经包含必要的索引列表,则直接提取索引列表即可,按输入顺序排列好。这里以输入法为例,如输入法的某候选结果是″我是中国人″,那么相应的索引列表为″woshizhongguoren″。
2、当然也存在某些情况,比如没有直接的索引列表或者很难获取索引列表。此时可以根据相应的使用情况,根据预设索引词典还原索引列表。比如,在语音识别时,根据发音词典得到的某一候选结果是″我是中国人″,那么可以根据发音词典中的拼音还原其索引列表″wǒ shì zhōngguó rén″,这种情况下索引词典也就是发音词典。
当然,除了上述的索引列表生成方式外,也可以采用其他方式,比如根据用户的输入来生成或者修改索引列表,本发明实施例对此无需加以限制。
步骤203,在所述索引列表中查找到与所述热词索引匹配的目标索引。
步骤204,采用所述目标索引确定所述候选结果中的被替换词;
步骤205,采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
步骤206,获取所述候选结果对应的候选评分;
步骤207,获取预先训练好的语言模型、混淆矩阵和模型权重;
步骤208,采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分。
在本发明实施例中,预先训练好了语言模型P及热词词典的混淆矩阵Q。其中,语言模型用来评估自然语言中字词(热词)的概率P(词|[前文,后文]),混淆矩阵为索引到词的转移概率矩阵Q(词|索引)。
在本发明的一种优选实施例中,所述步骤208可以包括如下子步骤:
采用所述语言模型计算所述热词文本的第一语言模型概率;
采用所述语言模型计算所述被替换词的第二语言模型概率;
采用所述混淆矩阵计算所述热词文本的第一转移概率;
采用所述混淆矩阵计算所述被替换词的第二转移概率;
按照预设评分计算规则,采用所述模型权重、候选评分、第一语言模型概率、第二语言模型概率、第一转移概率和第二转移概率计算所述新候选结果的新候选评分。
在本发明实施例中,假设候选结果为″我是中国人″,新候选结果为″我失重国人″,于新候选结果的新候选评分计算方式为:
a、假设候选结果的候选评分为S,新候选结果的新候选评分为S′。
b、根据语言模型,计算出被替换词在相应语境中的第一语言模型概率:Pold=P(原词|[前文,后文])=P(是中|[我,国人])。
c、根据语言模型,计算出替换词相应语境中的第二语言模型概率:Pnew=P(热词|[前文,后文])=P(失重|[我,国人])。
d、根据混淆矩阵,计算根据被替换词的第一转移概率:
Qold=Q(原词|索引)=Q(是中|shizhong)。
e、根据混淆矩阵,计算根据索引替换词的第二转移概率:
Qnew=Q(热词|索引)=Q(失重|shizhong)。
f、计算新候选结果的新候选评分S′=S+λ[w(Pnew/Pold)+w(Qnew/Qold)],其中λ为该热词的模型权重,具体而言是指语言模型在解码中权重比例,或者说语言模型在最后评分占有的比重,w为将概率转移成分数的函数,将b-e中各项代入,可以得到:
Figure BDA0002285374790000101
实际上一句中可能有不止一个热词文本的替换,所以通常有:
Figure BDA0002285374790000102
其中,i为遍历该候选结果中替换的所有热词文本。
当然,在实际中热词词典中可以包括多个热词文本,则需要遍历热词词典中所有热词文本,重复上述步骤得到新候选结果和新候选评分,直至所有热词文本查找替换完毕,此时可以得多个新的候选结果和相应的新候选评分。在本发明的一种优选实施例中,所述方法还可以包括如下步骤:
获取所述新候选结果对应的候选评分,以及,所述候选结果的候选评分;
将所述候选评分和所述候选评分按照从高到低的顺序,提取出m个候选结果和/或新候选结果,所述m为正整数。
在具体实现中,本发明实施例可以基于在先的候选结果和候选评分,得到新候选结果和相应的新候选评分,可以理解,此时候选结果和新候选结果可能会很多,因此本发明实施例在得到新候选结果后,还可以进一步进行筛选。
假设有N条候选结果和M条新候选结果,根据相应的评分将N+M条候选结果由高到低重新排序,并筛选排序在前m位的候选结果。需要注意的是,此时的m条候选结果包括了原有的候选结果和新候选结果。
当然,实际上这一步非必要,其作用是避免大量热词的增加造成解码候选指数性增长。此外,筛选方式多样,按照评分高低是最简单的一种方式,其他方式就不一一列举。
为了使本领域技术人员更好地理解本发明实施例,下面采用具体示例进行说明,以语音识别为例,在没有添加热词(gàngjing杠精)的前提下,语音识别得到的两条侯选结果为:
P1(tāshì gàngjing:->他是钢精,S=0.8)
P2(tāshì gàngjing:->他试岗精,S=0.2)
那么解码器新增热词(gàngjing杠精),经搜索发现P1候选结果中″钢精″和″杠精″发音类似,可以进行替换,即将P1中″他是钢精″替换得到新候选结果″他是杠精″,对于新增的新候选结果,杠(gàng)精相比钢(gāng)精发音更匹配,
所以
Figure BDA0002285374790000111
以1.2为例,
并且
Figure BDA0002285374790000112
以1.3为例,
那么更新后的候选结果和相应评分分别是:
S′=0.8+0.1*(1.2+1.3)=1.25
P1(tāshì gàng jing:->他是钢精,S=0.8)
P2(tāshì gàngjing:->他试岗精,S=0.7)
P3(tāshì gàngjing:->他是杠精,S′=1.25)
对于更新后的候选结果,将保存到词库中备用,当在语音识别过程中,根据用户输入从词库中得到上述三条候选结果时,由于P3评分最高,于是在语音识别时将输出″他是杠精″。
综上可知,本发明实施例可以用于计算机中需要解析自然语言的过程,快速增加热词。一般而言,为了解析出自然语言,需要花费大量的计算资源经过大量的语料训练生成语言模型。而语言模型又不方便调用,通常为了快速读取语言模型,而将其转化为状态转移的图格式。在上述方法,当需要新增热词时,需要新增热词相关语料,进而重新训练语言模型,再转化成状态转移图格式。很明显,这种方法耗时长,需要数日乃至数月的周期,而又经常(短至每日)需要更新热词,所以这种方法的实用价值有限。而本发明实施例则是针对耗时长的问题,可基于热词直接修改已有的候选结果,并对于修改后的候选结果(即新候选结果)重新打分,得到的新候选评分以在输入法和语音识别等场景中应用。由于本发明实施例是在原有的候选结果上进行微调替换,因此除了不需要占用大量的时间和算力之外,也能在保证调整精度的前提下添加热词。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的一种热词的添加装置实施例的结构框图,具体可以包括如下模块:
热词词典读取模块301,用于读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
索引列表获取模块302,用于获取所述候选结果的索引列表;
目标索引查找模块303,用于在所述索引列表中查找到与所述热词索引匹配的目标索引;
被替换词确定模块304,用于采用所述目标索引确定所述候选结果中的被替换词;
替换模块305,用于采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
候选评分获取模块306,用于获取所述候选结果对应的候选评分;
新候选评分计算模块307,用于采用所述候选评分计算所述新候选结果的新候选评分。
在本发明的一种优选实施例中,所述装置还包括:
候选结果提取模块,用于将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
在本发明的一种优选实施例中,所述索引列表获取模块302,包括:
提取子模块,用于若所述候选结果具有对应的索引列表,则提取所述候选结果对应的索引列表;
生成子模块,用于若所述候选结果不具有对应的索引列表,则采用预设索引词典生成所述候选结果的索引列表。
在本发明的一种优选实施例中,所述新候选评分计算模块307,包括:
数据获取子模块,用于获取预先训练好的语言模型、混淆矩阵和模型权重;
新候选评分计算子模块,用于采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分。
在本发明的一种优选实施例中,所述新候选评分计算子模块,包括:
第一语言模型概率计算单元,用于采用所述语言模型计算所述热词文本的第一语言模型概率;
第二语言模型概率计算单元,用于采用所述语言模型计算所述被替换词的第二语言模型概率;
第一转移概率计算单元,用于采用所述混淆矩阵计算所述热词文本的第一转移概率;
第二转移概率计算单元,用于采用所述混淆矩阵计算所述被替换词的第二转移概率;
新候选评分计算单元,用于按照预设评分计算规则,采用所述模型权重、候选评分、第一语言模型概率、第二语言模型概率、第一转移概率和第二转移概率计算所述新候选结果的新候选评分。
在本发明的一种优选实施例中,所述装置还包括:
评分获取模块,用于获取所述新候选结果对应的候选评分,以及,所述候选结果的候选评分;
候选排序模块,用于将所述候选评分和所述候选评分按照从高到低的顺序,提取出m个候选结果和/或新候选结果,所述m为正整数。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行本发明实施例所述的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本发明实施例所述的方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种热词的添加方法和一种热词的添加装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种热词的添加方法,其特征在于,包括:
读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
获取所述候选结果的索引列表;
在所述索引列表中查找到与所述热词索引匹配的目标索引;
采用所述目标索引确定所述候选结果中的被替换词;
采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
获取所述候选结果对应的候选评分;
采用所述候选评分计算所述新候选结果的新候选评分。
2.根据权利要求1所述的方法,其特征在于,在所述读取热词词典和候选结果的步骤之后,还包括:
将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
3.根据权利要求1所述的方法,其特征在于,所述获取所述候选结果的索引列表的步骤,包括:
若所述候选结果具有对应的索引列表,则提取所述候选结果对应的索引列表;
若所述候选结果不具有对应的索引列表,则采用预设索引词典生成所述候选结果的索引列表。
4.根据权利要求1所述的方法,其特征在于,所述采用所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
获取预先训练好的语言模型、混淆矩阵和模型权重;
采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分。
5.根据权利要求4所述的方法,其特征在于,所述采用所述语言模型、所述混淆矩阵、所述模型权重和所述候选评分计算所述新候选结果的新候选评分的步骤,包括:
采用所述语言模型计算所述热词文本的第一语言模型概率;
采用所述语言模型计算所述被替换词的第二语言模型概率;
采用所述混淆矩阵计算所述热词文本的第一转移概率;
采用所述混淆矩阵计算所述被替换词的第二转移概率;
按照预设评分计算规则,采用所述模型权重、候选评分、第一语言模型概率、第二语言模型概率、第一转移概率和第二转移概率计算所述新候选结果的新候选评分。
6.根据权利要求1所述的方法,其特征在于,在所述采用所述候选评分计算所述新候选结果的新候选评分的步骤之后,还包括:
获取所述新候选结果对应的候选评分,以及,所述候选结果的候选评分;
将所述候选评分和所述候选评分按照从高到低的顺序,提取出m个候选结果和/或新候选结果,所述m为正整数。
7.一种热词的添加装置,其特征在于,包括:
热词词典读取模块,用于读取热词词典和候选结果;其中,所述候选结果为至少一个,所述热词词典包括至少一个热词文本和对应的热词索引;
索引列表获取模块,用于获取所述候选结果的索引列表;
目标索引查找模块,用于在所述索引列表中查找到与所述热词索引匹配的目标索引;
被替换词确定模块,用于采用所述目标索引确定所述候选结果中的被替换词;
替换模块,用于采用所述热词文本替换所述候选结果中的被替换词,得到新候选结果;
候选评分获取模块,用于获取所述候选结果对应的候选评分;
新候选评分计算模块,用于采用所述候选评分计算所述新候选结果的新候选评分。
8.根据权利要求7所述的装置,其特征在于,还包括:
候选结果提取模块,用于将所述候选结果的候选评分按照从高到低的顺序,从所述候选结果中提取出n个候选结果,所述n为正整数。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-6所述的一个或多个的方法的步骤。
10.一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-6所述的一个或多个的方法的步骤。
CN201911158216.XA 2019-11-22 2019-11-22 一种热词的添加方法和装置 Active CN111090720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911158216.XA CN111090720B (zh) 2019-11-22 2019-11-22 一种热词的添加方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911158216.XA CN111090720B (zh) 2019-11-22 2019-11-22 一种热词的添加方法和装置

Publications (2)

Publication Number Publication Date
CN111090720A true CN111090720A (zh) 2020-05-01
CN111090720B CN111090720B (zh) 2023-09-12

Family

ID=70394044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911158216.XA Active CN111090720B (zh) 2019-11-22 2019-11-22 一种热词的添加方法和装置

Country Status (1)

Country Link
CN (1) CN111090720B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102955825A (zh) * 2011-08-30 2013-03-06 北京搜狗科技发展有限公司 一种更新输入法词库的方法及系统
CN104584119A (zh) * 2012-07-03 2015-04-29 谷歌公司 确定热词适合度
CN106125955A (zh) * 2016-06-23 2016-11-16 百度在线网络技术(北京)有限公司 一种用于在输入法应用中提供热词的方法和装置
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN110415705A (zh) * 2019-08-01 2019-11-05 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221863A1 (en) * 2007-03-07 2008-09-11 International Business Machines Corporation Search-based word segmentation method and device for language without word boundary tag
CN102955825A (zh) * 2011-08-30 2013-03-06 北京搜狗科技发展有限公司 一种更新输入法词库的方法及系统
CN104584119A (zh) * 2012-07-03 2015-04-29 谷歌公司 确定热词适合度
CN106125955A (zh) * 2016-06-23 2016-11-16 百度在线网络技术(北京)有限公司 一种用于在输入法应用中提供热词的方法和装置
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN110415705A (zh) * 2019-08-01 2019-11-05 苏州奇梦者网络科技有限公司 一种热词识别方法、系统、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭冲;: "基于新闻标题的网络热词发现算法", 计算机与现代化, no. 03, pages 58 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905869A (zh) * 2021-03-26 2021-06-04 北京儒博科技有限公司 语言模型的自适应训练方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN111090720B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
US20110184723A1 (en) Phonetic suggestion engine
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
CN114580382A (zh) 文本纠错方法以及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
Xu et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Guillaume et al. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings
CN111090720B (zh) 一种热词的添加方法和装置
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN114185573A (zh) 一种人机交互机器翻译系统的实现和在线更新系统及方法
CN113806520A (zh) 基于强化学习的文本摘要生成方法和系统
Han et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
Rojan et al. Natural Language Processing based Text Imputation for Malayalam Corpora
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
CN112988965B (zh) 文本数据处理方法、装置、存储介质及计算机设备
Safonova et al. Automatic Speech Recognition of Low-Resource Languages Based on Chukchi

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant