CN112735428A - 一种热词获取方法、语音识别方法及相关设备 - Google Patents
一种热词获取方法、语音识别方法及相关设备 Download PDFInfo
- Publication number
- CN112735428A CN112735428A CN202011571404.8A CN202011571404A CN112735428A CN 112735428 A CN112735428 A CN 112735428A CN 202011571404 A CN202011571404 A CN 202011571404A CN 112735428 A CN112735428 A CN 112735428A
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- hotword
- words
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000001914 filtration Methods 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 206010035664 Pneumonia Diseases 0.000 description 26
- 230000011218 segmentation Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 7
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000010453 quartz Substances 0.000 description 5
- 206010011224 Cough Diseases 0.000 description 4
- 241000282344 Mellivora capensis Species 0.000 description 4
- 206010037660 Pyrexia Diseases 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 3
- 241001622623 Coeliadinae Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 241000711573 Coronaviridae Species 0.000 description 2
- 206010015535 Euphoric mood Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001539473 Euphoria Species 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002743 euphoric effect Effects 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种热词获取方法、语音识别方法及相关设备,其中,热词获取方法包括:获取目标用户的历史文本数据;基于历史文本数据的编辑行为和/或历史文本数据所包含词的特征从历史文本数据中抽取候选热词,以得到候选热词集;基于候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取候选热词集中每个候选热词对应的扩展词;根据候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉非热词,以得到目标用户的热词集。经由上述方法可获得高质量热词,在进行语音识别时,辅以高质量热词,能够提升语音识别效果。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种热词获取方法、语音识别方法及相关设备。
背景技术
随着人工智能的发展,语音识别已经渗透到人们生活的方方面面。目前,通用语音识别已经达到很高的水平,但其在特殊词汇,专业术语、专有名词等方面的识别效果仍有待进一步提升,这些词汇往往是用户使用的高频词,具有用户特性,用户对这部分词汇的识别容错率非常低,因此,这部分词汇的识别率提升是用户非常期待的。
为了能够提升对用户使用的高频词即热词的识别效果,可获取用户的热词,在进行语音识别时,利用用户的热词辅助识别,可以理解的是,只有高质量的热词才能在识别时起到很好的辅助作用,而针对某个用户,如何获得其高质量的热词是目前亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种热词获取方法、语音识别方法及相关设备,用以获得目标用户的高质量热词,从而在对目标用户的语音进行语音识别时,辅以高质量热词,进而提升语音识别效果,其技术方案如下:
一种热词获取方法,包括:
获取目标用户的历史文本数据;
基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式,获取所述候选热词集中每个候选热词对应的扩展词;
基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
可选的,所述历史文本数据中包括:对所述目标用户的语音进行识别所得到的识别文本和所述识别文本对应的编辑文本;
基于所述目标用户对所述历史文本数据的编辑行为,从所述历史文本数据中抽取候选热词,包括:
从所述编辑文本中抽取所述识别文本中错误词对应的正确词,作为目标词;
根据所述目标词确定候选热词。
可选的,所述根据所述目标词确定候选热词,包括:
若所述目标词为非单字且为非停用词,则将所述目标词确定为候选热词;
若所述目标词为单字且为非停用词,则基于所述目标词以及所述目标词的上下文确定候选热词。
可选的,所述热词获取方法还包括:
在构建的语料库中获取与根据所述目标词确定出的候选热词共现频率最高的预设个词,作为候选热词。
可选的,根据所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,包括:
根据所述历史文本数据所包含词的词性,从所述历史文本数据中抽取指定词性的词,作为候选热词;
和/或,根据所述历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从所述历史文本数据中抽取候选热词。
可选的,获取所述历史文本数据所包含词的多个不同维度的文本统计特征,包括:
针对所述历史文本数据中每个待确定文本统计特征的目标词,确定所述目标词的词频特征、词共现特征和句子分布特征;
其中,所述目标词的词频特征能够表征所述目标词在所述历史文本数据中出现的相对频率,所述目标词的词共现特征能够表征所述目标词与其上下文信息在所述历史文本数据中的共现情况,所述目标词的句子分布特征能够表征所述目标词所在句子在所述历史文本数据中的句子分布情况。
可选的,所述基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,包括:
根据所述候选热词集中每个候选热词对应的扩展词,获取所述候选热词集中每个候选热词对应的目标句子集,其中,一候选热词对应的目标句子集包括该候选热词所在的句子,以及将该候选热词所在的句子中的该候选热词替换为候选热词对应的扩展词后的句子;
根据所述候选热词集中每个候选热词对应的目标句子集,从所述候选热词集中过滤掉非热词。
可选的,所述根据所述候选热词集中每个候选热词对应的扩展词,获取所述候选热词集中每个候选热词对应的目标句子集,包括:
针对所述候选热词集中的每个候选热词:
获取该候选热词所在的句子,由获取的句子组成该候选热词对应的初始句子集;
根据该候选热词对应的扩展词和该候选热词对应的初始句子集,确定该候选热词对应的至少一个目标句子集,其中,该候选热词对应的目标句子集包括该候选热词对应的初始句子集中的一个句子,以及根据该句子和该候选热词对应的扩展词扩展出来的句子。
可选的,所述根据所述候选热词集中每个候选热词对应的目标句子集,从所述候选热词集中过滤掉非热词,包括:
将所述候选热词集中每个候选热词对应的目标句子集中的各句子输入语言模型,得到各句子的语言模型得分;
根据所述候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定所述候选热词集中每个候选热词是否为热词;
从所述候选热词集中过滤掉确定出的非热词。
可选的,所述根据所述候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定所述候选热词集中每个候选热词是否为热词,包括:
针对所述候选热词集中的每个候选热词:
从该候选热词对应的至少一个目标句子集中,确定满足预设条件的目标句子集,其中,所述预设条件为,目标句子集中该候选热词的语言模型得分均高于其它句子的语言模型得分;
根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词。
可选的,所述根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词,包括:
确定满足所述预设条件的目标句子集的数量在该候选热词对应的目标句子集总数量上的占比是否大于预设占比阈值;
若是,则确定该候选热词为非热词,否则,确定该候选热词为热词。
一种语音识别方法,包括:
获取目标用户的待识别语音;
利用预先建立的语音识别模型同时辅以所述目标用户的热词集,对所述目标用户的待识别语音进行识别;
其中,所述目标用户的热词集采用上述任一项所述的热词获取方法获得。
可选的,所述语音识别模型为个性化语音识别模型,其通过对通用语音识别模型进行优化得到;
所述通用语音识别模型包括通用语言模型和通用声学模型,所述个性化语音识别模型包括采用所述目标用户的历史文本数据对所述通用语言模型进行训练得到的个性化语言模型,以及,采用包含所述目标用户的热词集中热词的语音对所述通用声学模型训练得到的个性化声学模型。
一种热词获取装置,包括:用户数据获取模块、候选热词抽取模块、词扩展模块和用户热词确定模块;
所述用户数据获取模块,用于获取目标用户的历史文本数据;
所述候选热词抽取模块,用于基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
所述词扩展模块,用于基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取所述候选热词集中每个候选热词对应的扩展词;
所述用户热词确定模块,用于基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
一种热词获取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的热词获取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的热词获取方法的各个步骤。
经由上述方案可知,本申请提供的热词获取方法,首先获取目标用户的历史文本数据,然后基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中确定热词,考虑到按上述方式获得的热词中可能除了包括识别错误率较高的热词外,还包括一些识别错误率较低的热词,而识别错误率较高的热词才是较为重要的热词,为此,本申请将按上述方式确定的热词作为候选热词组成候选热词集,接着基于候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取候选热词集中每个候选热词对应的扩展词,基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉识别错误率较低的词,在进行语音识别时,辅以识别错误率较高的热词,能够显著提高语音识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的热词获取方法的流程示意图;
图2为本申请实施例提供的基于目标用户对历史文本数据的编辑行为,从历史文本数据中抽取候选热词的流程示意图;
图3为本申请实施例提供的基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉非热词的流程示意图;
图4为本申请实施例提供的热词获取装置的结构示意图;
图5为本申请实施例提供的热词获取设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够获得高质量的热词,从而提升语音识别效果,本案发明人进行了研究,通过研究,最终提出了一种热词获取方法,该热词获取方法的基本思路是:获取目标用户的历史文本数据,基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中抽取候选热词,以得到候选热词集,然后从候选热词集中筛选出识别错误率比较高的词作为热词,以得到目标用户的热词集。
本申请提供的热词获取方法可应用于具有处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如PC、笔记本、智能手机等,网络侧的服务器或用户侧使用的终端可按本申请提供的热词获取方法获取目标用户的热词。
接下来,通过下述实施例对本申请提供的热词获取方法进行介绍。
第一实施例
请参阅图1,示出了本申请实施例提供的热词获取方法的流程示意图,该方法可以包括:
步骤S101:获取目标用户的历史文本数据。
其中,目标用户的历史文本数据可以但不限定为包括:目标用户的历史输入文本(比如,用户基于输入法输入的文本)、目标用户的历史语音的识别文本、目标用户的历史语音的识别文本所对应的编辑文本、目标用户发送出的文本等等。
需要说明的是,每个用户都有其独一无二的用户标识,本实施例可基于目标用户的用户标识获取目标用户的历史文本数据。
步骤S102:基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中抽取候选热词,以得到候选热词集。
其中,目标用户对历史文本数据的编辑行为可以为目标用户对语音识别文本的编辑行为,需要说明的是,语音识别结果通常要提供给用户确认,用户确认后再进行其它处理,如果语音识别结果中出现错误,用户会对错误的部分进行编辑,以将错误的部分修改正确。
其中,历史文本数据所包含词的特征可以但不限定为包括词的词性、文本统计特征等中的一个或多个。基于历史文本数据中所包含词的词性,可将人名、地名、机构名等词抽取出来,基于历史文本数据中所包含词的文本统计特征可将一些高频词抽取出来。
步骤S103:基于候选热词集中每个候选热词的发音,采用模糊音匹配的方式,获取候选热词集中每个候选热词对应的扩展词。
其中,一候选热词对应的扩展词的读音与该候选热词的读音相同或相似。
具体的,确定一候选热词对应的扩展词的过程可以包括:根据该候选热词中每个文本单元(可以为字,也可以为词)的读音,采用模糊音匹配的方式获取每个文本单元对应的扩展文本单元,然后,将该候选热词中各个文本单元的扩展文本单元进行组合,得到该候选热词对应的扩展词。
示例性的,候选热词为“新冠肺炎”,根据“新”的读音可获得“新”对应的扩展字{心,欣,兴,锌……},根据“冠”的读音可获得“冠”对应的扩展字{关,官,观……},根据“肺炎”的读音可获得“肺炎”对应的扩展词{废言,飞燕,非烟…},假设“新”对应的扩展字有P1个,“冠”对应的扩展字有P2个,“肺炎”对应的扩展词有P3个,则将“新”、“冠”和“肺炎”分别对应的扩展文本单元组合,可获得P1*P2*P3个扩展词。
在一种可能的实现方式中,可采用候选热词对应的所有扩展词进行后续的处理,为了提高数据处理效率,在另一种可能的实现方式中,可将候选热词对应的所有扩展词分别输入语言模型,得到各扩展词的得分,将得分最高的M个扩展词保留,进行后续的处理,其中,M可根据实际情况设定,比如,可设定M小于或等于5。
步骤S104:基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉非热词,以得到目标用户的热词集。
具体的,针对候选热词集中每个的候选热词,可根据该候选热词所在的句子以及该候选热词对应的扩展词,获取该候选热词对应的扩展句子,以得到候选热词集中每个候选热词分别对应的扩展句子,然后根据候选热词集中每个候选热词所在的句子以及每个候选热词对应的扩展句子,从候选热词集中确定识别错误率较低的词作为非热词,并将非热词滤除,以得到目标用户的热词集。
本申请实施例提供的热词获取方法,首先获取目标用户的历史文本数据,然后基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中确定热词,考虑到基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征获得的热词中,除了包含识别错误率较高的热词外,还可能包含一些识别错误率较低的热词,而识别错误率较高的热词才是较为重要的热词,为此,本实施例将基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征获得的热词作为候选热词,以得到候选热词集,接着基于候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取候选热词集中每个候选热词对应的扩展词,最后基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉识别错误率较低的词,以得到目标用户的热词集,在对目标用户的语音进行识别时,辅以目标用户的热词集,能够显著提高语音识别效果。
第二实施例
本申请实施例对上述实施例中的“步骤S102:基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中抽取候选热词,以得到候选热词集”的具体实现过程进行介绍。
本实施例首先对基于目标用户对历史文本数据的编辑行为,从历史文本数据中抽取候选热词的过程进行介绍。
上述实施例中提到,目标用户的历史文本数据中包括对目标用户的历史语音进行识别所得到的识别文本以及识别文本对应的编辑文本,有鉴于此,请参阅图2,示出了基于目标用户对历史文本数据的编辑行为,从历史文本数据中抽取候选热词的流程示意图,可以包括:
步骤S201:从编辑文本中抽取对应的识别文本中错误词对应的正确词,作为目标词。
需要说明的是,错误词对应的正确词即为目标用户对错误词进行编辑后的词。
具体的,首先分别对识别文本和对应的编辑文本进行分词,然后将识别文本的分词结果与对应的编辑文本的分词结果进行比对,从而确定两个文本中存在差异的词对,最后将存在差异的词对中位于编辑文本中的词作为目标词抽取出来。
示例性的,目标用户的一识别文本的分词结果和对应的编辑文本的分词结果如下:
识别文本的分词结果:发烧咳嗽乏力是新冠肺炎的典型症状编辑文本的分词结果:发烧咳嗽乏力是新官肺炎的典型症状其中,存在差异的词对为“冠-官”,则将“官”作为目标词抽取出来。
步骤S202:根据目标词确定候选热词。
具体的,根据目标词确定候选热词的过程可以包括:若目标词为非单字且为非停用词,则将目标词确定为候选热词;若目标词为单字且为非停用词,则基于目标词以及目标词的上下文确定候选热词。需要说明的是,若目标词为停用词,则确定目标词为非候选热词,可直接丢弃。
示例性的,目标用户的一识别文本的分词结果和对应的编辑文本的分词结果如下:
识别文本的分词结果:实现三百六十度无死角的拾音
编辑文本的分词结果:实现三百六十度无死角的石英
其中,存在差异的词对为“拾音-石英”,则将“石英”作为目标词抽取出来,由于目标词“石英”为非单字且为非停用词,因此,直接将“石英”确定为候选热词。
对于目标词为单字且为非停用词的情况,如上述示例中的“官”,
“官”为单字,且其为非停用词,则可基于“官”和“官”的上下文确定候选热词,具体的,基于“官”的上下文对“官”进行扩展,扩展出的词作为候选热词,比如,可基于“官”的上下文扩展出“新官”、“官肺炎”、“新官肺炎”等词,扩展出的这些词作为候选热词。
可选的,在获得基于目标词确定出的候选热词后,可在预先构建的语料库中获取与根据目标词确定出的候选热词共现频率最高的预设个词,作为候选热词。需要说明的是,基于目标词确定出的候选热词以及从语料库中获取的候选热词均加入候选热词集。
优选的,语料库中的语料为近一段时间的语料,比如,最近一周的语料,可选的,语料库中的语料可以但不限定为包括新闻语料、微博语料等。
需要说的是,上述从语料库中确定出的候选热词为联想热词,是目标用户后面很可能会说到的词,比如,上述示例中提取出的候选热词“新冠肺炎”,假设语料库中与“新冠肺炎”共现频率最高的三个词为“冠状病毒、咽拭子、发烧咳嗽”,说明“冠状病毒、咽拭子、发烧咳嗽”这三个词后期用户很可能说到,联想热词的引入在一定程度上能让语音识别系统变得更加智能。
经由上述过程获得的候选热词可组成第一候选热词集。
接下来,对根据历史文本数据所包含词的特征,从历史文本数据中抽取候选热词的实现过程进行介绍。
根据历史文本数据所包含词的特征,从历史文本数据中抽取候选热词的实现过程可以包括:根据历史文本数据所包含词的词性,从历史文本数据中抽取指定词性的词,作为候选热词;和/或,根据历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从历史文本数据中抽取候选热词。
首先对根据历史文本数据所包含词的词性,从历史文本数据中抽取指定词性的词,作为候选热词的过程进行介绍。
考虑到当前的语音识别系统在人名、地名、机构名等实体上有明显的短板,究其原因,还是实体词在训练集合中稀疏导致,因此,从目标用户的历史数据中尽可能的挖掘出具有实体属性的词来辅助识别是十分必要的。
在本实施例可首先对目标用户的历史文本数据进行清洗,以删除无意义字符,比如特殊符号、网址、表情符等,然后对清洗后的历史文本数据进行分词,接着确定分词结果中每个词的词性,最后抽取词性为指定词性的词,其中,指定词性可以但不限定为nh(人名)、nl(地名)、ni(机构名)、nz(其他专有名词)等。
示例性的,目标用户的历史文本数据中的一个文本为“李心草溺亡案十六民警被问责”,该文本中各词的词性分别为“李心草/nh/溺亡案/n/十六/m/民警/n/被/p/问责/v/”,根据词性从该文本中提取出的候选热词为“李心草、溺亡案、民警”。需要说明的是,若指定词性中包括/n/,则在对词性为/n/的词进行抽取时,可只抽取非普通名词(苹果、梨等为普通名词)。
将经由上述根据词的词性从历史文本数据中抽取出的候选热词组成第二候选热词集。
接下来对根据历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从历史文本数据中抽取候选热词的过程进行介绍。
若要获得历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,首先需要获得历史文本数据所包含词的多个不同维度的文本统计特征,在本实施例中,可首先对历史文本数据进行清洗,以删除无意义字符,然后对清洗后的历史文本数据进行分词,接着确定分词结果中每个词的多个不同维度的文本统计特征。需要说明的是,若在这之前已对历史文本数据进行清洗和分词处理,则可直接利用分词结果,另外需要说明的是,在对清洗后的历史文本数据进行分词时,可基于分词词典和语言模型实现分词,优选的,分词词典可以为超大词典,比如800万词的超大词典,语言模型可以为三阶的ngram模型,基于超大词典进行分词能够尽可能的让实体、专有名词等分为整词。
针对历史文本数据的分词结果中每个待确定文本统计特征的目标词,可确定目标词的词频特征、词共现特征和句子分布特征。以下分别对确定目标词的词频特征、词共现特征和句子分布特征的过程进行介绍。
(a)目标词的词频特征的确定
目标词的词频特征能够表征目标词在历史文本数据中出现的相对频率,具体的,假设目标词为w,目标词w在历史文本数据中出现的相对频率可通过下式计算:
上式中,TF(w)表示目标词w在历史文本数据中出现的总次数,avgTF表示历史文本数据中所有词的平均出现频率,α表示的是词频的标准差,标准差α的计算公式如下:
上式中的n表示历史文本数据中所包含的词的总数量。
(b)目标词的词共现特征的确定
目标词的词共现特征能够表征目标词与其上下文信息在历史文本数据中的共现情况,具体的,目标词与其上下文信息在历史文本数据中的共现情况可通过下式计算:
Cooccurrence(w)=(α+((rateL*p+pL))+(β+((rateR*p+pR)) (3)
其中,α+β=1,p表示目标词w的出现次数与历史文本数据中最高频词的频率之比,rateL、rateR、pL、pR的计算式如下:
其中,rateL和pL的计算式中的|{w′}|表示集合{bigram(w′,w)}中不同w′的个数,rateR和pR的计算式中的|{w′}|表示集合{bigram(w,w′)}中不同w′的个数,count(w′,w)表示集合{bigram(w′,w)}中各bigram频率之和,count(w,w′)表示{bigram(w,w′)}中各bigram频率之和。
经由上式可知,rateL表示历史文本数据中在目标词w左边出现的不同词的个数与以目标词w为当前词的各bigram分别在历史文本数据中出现的次数的和的比值,rateR表示历史文本数据中在目标词w右边出现的不同词的个数与以目标词w为历史词的各bigram分别在历史文本数据中出现的次数的和的比值,pL表示历史文本数据中在目标词w左边出现的不同词的个数与以目标词w为当前词的各bigram分别在历史文本数据中出现的次数中最大次数的比值,pR表示历史文本数据中在目标词w右边出现的不同词的个数与以目标词w为历史词的各bigram分别在历史文本数据中出现的次数中最大次数的比值。
示例性的,目标词w为“科大讯飞”,历史文本数据中在目标词w左边出现的不同词有“安徽”和“开发者节”,即上式(4)和(6)中的|{w′}|为2,以目标词w“科大讯飞”为当前词的bigram集合{bigram(w′,w)}具体为{安徽科大讯飞,开发者节科大讯飞},假设bigram“安徽科大讯飞”在历史文本数据中出现的次数为10,则bigram“开发者节科大讯飞”在历史文本数据中出现的次数为1,则上式(4)中的∑count(w′,w)=10+1=11,上式(6)中的max{count(w′,w)}=10,如此可得到rateL=2/11,pL=2/10。
示例性的,目标词w为“科大讯飞”,历史文本数据中在目标词w右边出现的不同词有“语音识别”、“学习机”和“会议系统”,即上式(5)和(7)中的|{w′}|为3,以目标词w“科大讯飞”为当前词的bigram集合{bigram(w,w′)}具体为{科大讯飞语音识别,科大讯飞学习机,科大讯飞会议系统},假设bigram“科大讯飞语音识别”在历史文本数据中出现的次数为3,bigram“科大讯飞学习机”在历史文本数据中出现的次数为2,bigram“科大讯飞会议系统”在历史文本数据中出现的次数为4,则上式(5)中的∑count(w,w′)=3+2+4=9,上式(6)中max{count(w,w′)}=4,如此可得到rateR=3/9,pR=3/4。
(c)目标词的句子分布特征的确定
目标词的句子分布特征能够表征目标词所在句子在历史文本数据中的句子分布情况,具体的,目标词w所在句子在历史文本数据中的句子分布情况可通过下式确定:
其中,sentr(w)表示目标词w所在的不同句子与历史文本数据中所有句子总数的比值,sentr(w)越大,说明目标词w的分布越广泛,目标词是热词的概率越大。
经由上述过程可获得目标词w的三个不同维度的文本统计特征,即词频特征freq(w)、词共现特征Cooccurrence(w)和句子分布特征sentr(w),接下来便可将目标词w的这三个特征融合,可选的,可按下式对目标词w的这三个特征融合:
其中,α为经验值,比如可取2,fea(w)即为目标词w的融合特征。
按上述方式便可获得历史文本数据的分词结果中各词的融合特征,接下来,便可根据历史文本数据的分词结果中各词的融合特征,从历史文本数据的分词结果中抽取候选热词,具体的,可将历史文本数据的分词结果中的各词按融合特征从小到大进行排序,从排序后的词中滤除停用词,然后取前N个词作为候选热词,当然,也可将历史文本数据的分词结果中的各词按融合特征从大到小的顺序进行排序,从排序后的词中滤除停用词,然后取后N个词作为候选热词,N可根据具体情况设定,比如N可取500。
经由上述基于融合特征获得的候选热词组成第三候选热词集。
需要说明的是,除了基于词频特征、词共现特征和句子分布特征这三种特征的融合特征从历史文本数据的分词结果中抽取候选热词外,还可基于词频特征、词共现特征和句子分布特征这三种特征中的一种或者任意两种的融合特征从历史文本数据的分词结果中抽取候选热词。
优选的,本实施例可基于目标用户对历史文本数据的编辑行为以及历史文本数据所包含词的特征,从历史文本数据中抽取候选热词,在基于历史文本数据所包含词的特征从历史文本数据中抽取候选热词时,可根据历史文本数据所包含词的词性,从历史文本数据中抽取候选热词,并根据历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从历史文本数据中抽取候选热词,如此,第一实施例中的候选热词集由上述第一候选热词集、第二候选热词集和第三候选热词集中的候选热词组成。
优选的,在获得候选热词集后,可从候选热词集中滤除重复词(比如,候选热词集中包括两个以及以上候选热词x,则只保留一个候选热词x)、停用词和相似词(比如候选热词x和候选热词y相似,则只保留其中一个)。
其中,停用词为语气词(比如,吗、吧等)、方位词(比如,这里、哪里)、数量词(比如,一个)、代词(比如,他们,我们)等。
其中,两个候选热词相似指的是,两个候选热词的相似度大于预设的相似度阈值,可选的,两个候选热词A和B的相似度可通过下式计算:
其中,Levenshtein(A,B)表示两个候选热词A和B的编辑距离,max{length(A),length(B)}表示两个候选热词A和B的最大长度。
可选的,相似度阈值可设置为0.8,当然本实施例并不限定于此,比如还可设置为0.85、0.9等,若两个候选热词A和B的相似度大于预设的相似度阈值,则可将词长较长的词滤除,保留词长较短的词。
第三实施例
经由上述实施例可获得候选热词集,本实施例对上述实施例中的“步骤S104:基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉非热词,以得到目标用户的热词集”的过程进行介绍。
请参阅图3,示出了基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉非热词的流程示意图,可以包括:
步骤S301:根据候选热词集中每个候选热词对应的扩展词,获取候选热词集中每个候选热词对应的目标句子集。
其中,一候选热词对应的目标句子集包括该候选热词所在的句子,以及将该候选热词所在的句子中的该候选热词替换为候选热词对应的扩展词后的句子。
由于候选热词集中各候选热词对应的目标句子集的确定方式相同,本实施例以候选热词集中的一候选热词c为例,对确定候选热词对应的目标句子集的过程进行介绍。确定候选热词c对应的目标句子集的过程可以包括:
步骤S3011、从历史文本数据中获取候选热词c所在的句子,由获取的句子组成候选热词c对应的初始句子集。
步骤S3012、根据候选热词c对应的扩展词和候选热词c对应的初始句子集,确定候选热词c对应的至少一个目标句子集。
其中,候选热词c对应的目标句子集包括候选热词c对应的初始句子集中的一个句子,以及根据该句子和该候选热词对应的扩展词扩展出来的句子。
示例性的,候选热词c为“新冠肺炎”,候选热词c对应的扩展词有m个,包括“新关肺炎”、“欣官肺炎”、“心关肺炎”、“心关肺言”、…,历史文本数据中候选热词c所在的句子有n个,包括“突如其来的新冠肺炎疫情让人措手不及”,…,以“突如其来的新冠肺炎疫情让人措手不及”这一句子为例,给出确定候选热词“新冠肺炎”对应的一个目标句子集的过程:
将“突如其来的新冠肺炎疫情让人措手不及”这一句子中的候选热词“新冠肺炎”分别替换为“新冠肺炎”对应的m个扩展词“新关肺炎”、“欣官肺炎”、“心关肺炎”、“心关肺言”、…,得到:
突如其来的新关肺炎疫情让人措手不及
突如其来的欣官肺炎疫情让人措手不及
突如其来的心关肺炎疫情让人措手不及
突如其来的心关肺言疫情让人措手不及
......
将“突如其来的新冠肺炎疫情让人措手不及”与上述扩展出的m个句子组成候选热词c对应的一个目标句子集。
按同样的方式可获得候选热词“新冠肺炎”对应的其它n-1个目标句子集。
按上述步骤S3011~步骤S3012的方式可确定出候选热词集中每个候选热词对应的目标句子集。
步骤S302:根据候选热词集中每个候选热词对应的目标句子集,从候选热词集中过滤掉非热词。
具体的,步骤S302的实现过程可以包括:
步骤S3021、将候选热词集中每个候选热词对应的目标句子集中的各句子输入语言模型,得到各句子的语言模型得分。
其中,一个句子的语言模型得分能够表征该句子的合理程度。
本步骤中使用的语言模型可以为通用语言模型与目标用户的个性化语言模型的融合模型。
步骤S3022、根据候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定候选热词集中每个候选热词是否为热词。
具体的,根据候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定候选热词集中每个候选热词是否为热词的过程可以包括:针对候选热词集中每个候选热词,从该候选热词对应的至少一个目标句子集中,确定满足预设条件的目标句子集,预设条件为目标句子集中该候选热词所在的句子的语言模型得分均高于其它句子的语言模型得分,根据满足预设条件的目标句子集的数量,确定该候选热词是否为热词。
以候选热词集中的一个候选热词c为例,进一步对确定候选热词是否为热词的过程进行介绍:
首先,对于候选热词c对应的每个目标句子集,若该目标句子集中候选热词c所在句子的语言模型得分均高于该目标句子集中其它句子的语言模型得分,则可确定该目标句子集满足预设条件,否则,确定该目标句子集不满足预设条件。
然后,确定候选热词c对应的所有目标句子集中满足预设条件的目标句子集的数量占候选热词c对应的所有目标句子集的总数量的占比是否大于预设的占比阈值,若是,则可确定候选热词c在绝大部分上下文情况下可以识别正确,该候选热词c在语音识别过程中进行激励的意义不大,无需作为热词,即确定候选热词c为非热词,否则,确定候选热词c为热词。
步骤S3023、从候选热词集中过滤掉确定出的非热词。
经由上述过程,可从候选热词集中过滤掉非热词,剩余词组成的集合作为目标用户的热词集,优选的,可将上述实施例中第二候选热词集中的所有候选热词作为热词添加至目标用户的热词集中,并进行去重处理,去重处理后得到的热词集作为目标用户最终的热词集。
第四实施例
在上述实施例提供的热词获取方法的基础上,本实施例提供了一种语音识别方法,该语音识别方法包括:获取目标用户的待识别语音,利用预先建立的语音识别模型同时辅以目标用户的热词集,对目标用户的待识别语音进行识别。其中,目标用户的热词集采用上述实施例提供的热词获取方法获得。
需要说明的是,热词在解码中是通过一遍热词激励和二遍class贴弧来发挥作用的,一遍激热词励采用的是lattice上字匹配,只要lattice上的一个路径包含热词中的词就给予得分激励,目的是希望包含热词的路径不被裁剪掉,二遍rescore是通过模糊音在一遍lattice上贴class弧实现,通过class语言模型来提升包含热词的nbest语言得分,从而提升热词的识别率。
考虑到在语音识别时辅以热词,对于识别效果的提升有限,为了进一步提升语音识别效果,本实施例提出,构建个性化语音识别模型,利用个性化语音识别模型辅以目标用户的热词集对目标用户的待识别语音进行识别。
其中,个性化语音识别模型通过对通用语音识别模型进行优化得到,通用语音识别模型包括通用语言模型和通用声学模型,个性化语音识别模型包括通用语言模型、采用目标用户的历史文本数据对通用语言模型进行训练得到的个性化语言模型,以及,采用包含目标用户的热词集中热词的语音对通用声学模型训练得到的个性化声学模型。
需要说明的是,上述包含目标用户的热词集中热词的语音可从目标用户的历史语音中获得,也可基于目标用户的历史文本数据中包含热词的文本合成得到,当然,也可同时采用上述两种方式获取包含目标用户的热词集中热词的语音,比如,先从目标用户的历史语音中获取包含热词的语音,若获取的语音数量不够,可从目标用户的历史文本数据中获取包含热词的文本,基于包含热词的文本合成出包含热词的语音,优选的,可从目标用户的语音识别文本对应的编辑文本中获取包含热词的文本。
对于直接从目标用户的历史语音中获取的语音,由于其具有对应的识别文本和编辑文本,因此,可将编辑文本作为语音对应的标注文本,对于合成语音,可将语音合成所基于的文本作为标注文本,可见,用于训练通用声学模型以得到个性化声学模型的语音,不需要进行人工标注,因此,节省了人工标注成本。
本实施例提供的语音识别方法,利用个性化语音识别模型同时辅以目标用户的热词集,能够显著提升对目标用户的语音的识别效果。
第五实施例
本申请实施例还提供了一种热词获取装置,下面对本申请实施例提供的热词获取装置进行描述,下文描述的热词获取装置与上文描述的热词获取方法可相互对应参照。
请参阅图4,示出了本申请实施例提供的热词获取装置的结构示意图,可以包括:用户数据获取模块401、候选热词抽取模块402、词扩展模块403和用户热词确定模块404。
用户数据获取模块401,用于获取目标用户的历史文本数据。
候选热词抽取模块402,用于基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集。
词扩展模块403,用于基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取所述候选热词集中每个候选热词对应的扩展词。
用户热词确定模块404,用于基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
可选的,用户数据获取模块401获取的历史文本数据中包括:对所述目标用户的语音进行识别所得到的识别文本和所述识别文本对应的编辑文本。
候选热词抽取模块402包括:候选热词第一抽取模块。
所述候选热词第一抽取模块,用于从所述编辑文本中抽取所述识别文本中错误词对应的正确词,作为目标词,根据所述目标词确定候选热词。
可选的,所述候选热词第一抽取模块在根据所述目标词确定候选热词时,具体用于若所述目标词为非单字且为非停用词,则将所述目标词确定为候选热词;若所述目标词为单字且为非停用词,则基于所述目标词以及所述目标词的上下文确定候选热词。
可选的,本申请实施例提供的热词获取装置还可以包括:候选热词联想模块。
所述候选热词联想模块,用于在构建的语料库中获取与根据所述目标词确定出的候选热词共现频率最高的预设个词,作为候选热词。
可选的,候选热词抽取模块包括:候选热词第二抽取模块和/或候选热词第三抽取模块。
所述候选热词第二抽取模块,用于根据所述历史文本数据所包含词的词性,从所述历史文本数据中抽取指定词性的词,作为候选热词。
所述候选热词第三抽取模块,用于根据所述历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从所述历史文本数据中抽取候选热词。
可选的,本申请实施例提供的热词获取装置还可以包括:文本统计特征获取模块。
所述文本统计特征获取模块,用于针对所述历史文本数据中每个待确定文本统计特征的目标词,确定所述目标词的词频特征、词共现特征和句子分布特征。
其中,所述目标词的词频特征能够表征所述目标词在所述历史文本数据中出现的相对频率,所述目标词的词共现特征能够表征所述目标词与其上下文信息在所述历史文本数据中的共现情况,所述目标词的句子分布特征能够表征所述目标词所在句子在所述历史文本数据中的句子分布情况。
可选的,用户热词确定模块404包括:目标句子集确定模块和非热词过滤模块。
所述目标句子集确定模块,用于根据所述候选热词集中每个候选热词对应的扩展词,获取所述候选热词集中每个候选热词对应的目标句子集。
其中,一候选热词对应的目标句子集包括该候选热词所在的句子,以及将该候选热词所在的句子中的该候选热词替换为候选热词对应的扩展词后的句子。
所述非热词过滤模块,用于根据所述候选热词集中每个候选热词对应的目标句子集,从所述候选热词集中过滤掉非热词。
可选的,所述目标句子集确定模块,具体用于针对所述候选热词集中的每个候选热词:
获取该候选热词所在的句子,由获取的句子组成该候选热词对应的初始句子集;根据该候选热词对应的扩展词和该候选热词对应的初始句子集,确定该候选热词对应的至少一个目标句子集。
其中,该候选热词对应的目标句子集包括该候选热词对应的初始句子集中的一个句子,以及根据该句子和该候选热词对应的扩展词扩展出来的句子。
可选的,所述非热词过滤模块包括:语言模型得分确定子模块、热词判别子模块和非热词过滤子模块。
所述语言模型得分确定子模块,用于将所述候选热词集中每个候选热词对应的目标句子集中的各句子输入语言模型,得到各句子的语言模型得分。
所述热词判别子模块,用于根据所述候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定所述候选热词集中每个候选热词是否为热词。
所述非热词过滤子模块,用于从所述候选热词集中过滤掉确定出的非热词。
可选的,所述热词判别子模块,具体用于针对所述候选热词集中的每个候选热词:
从该候选热词对应的至少一个目标句子集中,确定满足预设条件的目标句子集,其中,所述预设条件为,目标句子集中该候选热词的语言模型得分均高于其它句子的语言模型得分;根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词。
可选的,所述热词判别子模块在根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词时,具体用于确定满足所述预设条件的目标句子集的数量在该候选热词对应的目标句子集总数量上的占比是否大于预设占比阈值,若是,则确定该候选热词为非热词,否则,确定该候选热词为热词。
本申请实施例提供的热词获取装置,首先获取目标用户的历史文本数据,然后基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征,从历史文本数据中确定热词,考虑到基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征获得的热词中,除了包含识别错误率较高的热词外,还可能包含一些识别错误率较低的热词,而识别错误率较高的热词才是较为重要的热词,为此,本实施例将基于目标用户对历史文本数据的编辑行为和/或历史文本数据所包含词的特征获得的热词作为候选热词组成候选热词集,接着基于候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取候选热词集中每个候选热词对应的扩展词,最后基于候选热词集中每个候选热词对应的扩展词,从候选热词集中过滤掉识别错误率较低的词,在对目标用户的语音进行识别时,辅以目标用户的热词集,能够显著提高语音识别效果。
第六实施例
本申请实施例还提供了一种语音识别装置,该装置可以包括:语音获取模块和语音识别模块。其中:
所述语音获取模块,用于获取目标用户的待识别语音。
所述语音识别模块,用于利用预先建立的语音识别模型同时辅以所述目标用户的热词集,对所述目标用户的待识别语音进行识别。
其中,所述目标用户的热词集采用上述实施例提供的热词获取装置获得。
可选的,所述语音识别模型为个性化语音识别模型,其通过对通用语音识别模型进行优化得到。
所述通用语音识别模型包括通用语言模型和通用声学模型,所述个性化语音识别模型包括采用所述目标用户的历史文本数据对所述通用语言模型进行训练得到的个性化语言模型,以及,采用包含所述目标用户的热词集中热词的语音对所述通用声学模型训练得到的个性化声学模型。
本申请实施例提供的语音识别装置,在对目标用户的待识别语音进行识别时,利用个性化语音识别模型同时辅以目标用户的热词集,能够获得较为正确的语音识别结果。
第七实施例
本申请实施例还提供了一种热词获取设备,请参阅图5,示出了该热词获取设备的结构示意图,该热词获取设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标用户的历史文本数据;
基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式,获取所述候选热词集中每个候选热词对应的扩展词;
基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
第八实施例
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标用户的历史文本数据;
基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式,获取所述候选热词集中每个候选热词对应的扩展词;
基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (16)
1.一种热词获取方法,其特征在于,包括:
获取目标用户的历史文本数据;
基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式,获取所述候选热词集中每个候选热词对应的扩展词;
基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
2.根据权利要求1所述的热词获取方法,其特征在于,所述历史文本数据中包括:对所述目标用户的语音进行识别所得到的识别文本和所述识别文本对应的编辑文本;
基于所述目标用户对所述历史文本数据的编辑行为,从所述历史文本数据中抽取候选热词,包括:
从所述编辑文本中抽取所述识别文本中错误词对应的正确词,作为目标词;
根据所述目标词确定候选热词。
3.根据权利要求2所述的热词获取方法,其特征在于,所述根据所述目标词确定候选热词,包括:
若所述目标词为非单字且为非停用词,则将所述目标词确定为候选热词;
若所述目标词为单字且为非停用词,则基于所述目标词以及所述目标词的上下文确定候选热词。
4.根据权利要求2所述的热词获取方法,其特征在于,还包括:
在构建的语料库中获取与根据所述目标词确定出的候选热词共现频率最高的预设个词,作为候选热词。
5.根据权利要求1所述的热词获取方法,其特征在于,根据所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,包括:
根据所述历史文本数据所包含词的词性,从所述历史文本数据中抽取指定词性的词,作为候选热词;
和/或,根据所述历史文本数据所包含词的多个不同维度的文本统计特征的融合特征,从所述历史文本数据中抽取候选热词。
6.根据权利要求5所述的热词获取方法,其特征在于,获取所述历史文本数据所包含词的多个不同维度的文本统计特征,包括:
针对所述历史文本数据中每个待确定文本统计特征的目标词,确定所述目标词的词频特征、词共现特征和句子分布特征;
其中,所述目标词的词频特征能够表征所述目标词在所述历史文本数据中出现的相对频率,所述目标词的词共现特征能够表征所述目标词与其上下文信息在所述历史文本数据中的共现情况,所述目标词的句子分布特征能够表征所述目标词所在句子在所述历史文本数据中的句子分布情况。
7.根据权利要求1所述的热词获取方法,其特征在于,所述基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,包括:
根据所述候选热词集中每个候选热词对应的扩展词,获取所述候选热词集中每个候选热词对应的目标句子集,其中,一候选热词对应的目标句子集包括该候选热词所在的句子,以及将该候选热词所在的句子中的该候选热词替换为候选热词对应的扩展词后的句子;
根据所述候选热词集中每个候选热词对应的目标句子集,从所述候选热词集中过滤掉非热词。
8.根据权利要求7所述的热词获取方法,其特征在于,所述根据所述候选热词集中每个候选热词对应的扩展词,获取所述候选热词集中每个候选热词对应的目标句子集,包括:
针对所述候选热词集中的每个候选热词:
获取该候选热词所在的句子,由获取的句子组成该候选热词对应的初始句子集;
根据该候选热词对应的扩展词和该候选热词对应的初始句子集,确定该候选热词对应的至少一个目标句子集,其中,该候选热词对应的目标句子集包括该候选热词对应的初始句子集中的一个句子,以及根据该句子和该候选热词对应的扩展词扩展出来的句子。
9.根据权利要求8所述的热词获取方法,其特征在于,所述根据所述候选热词集中每个候选热词对应的目标句子集,从所述候选热词集中过滤掉非热词,包括:
将所述候选热词集中每个候选热词对应的目标句子集中的各句子输入语言模型,得到各句子的语言模型得分;
根据所述候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定所述候选热词集中每个候选热词是否为热词;
从所述候选热词集中过滤掉确定出的非热词。
10.根据权利要求9所述的热词获取方法,其特征在于,所述根据所述候选热词集中每个候选热词对应的目标句子集中各句子的语言模型得分,确定所述候选热词集中每个候选热词是否为热词,包括:
针对所述候选热词集中的每个候选热词:
从该候选热词对应的至少一个目标句子集中,确定满足预设条件的目标句子集,其中,所述预设条件为,目标句子集中该候选热词的语言模型得分均高于其它句子的语言模型得分;
根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词。
11.根据权利要求10所述的热词获取方法,其特征在于,所述根据满足所述预设条件的目标句子集的数量,确定该候选热词是否为热词,包括:
确定满足所述预设条件的目标句子集的数量在该候选热词对应的目标句子集总数量上的占比是否大于预设占比阈值;
若是,则确定该候选热词为非热词,否则,确定该候选热词为热词。
12.一种语音识别方法,其特征在于,包括:
获取目标用户的待识别语音;
利用预先建立的语音识别模型同时辅以所述目标用户的热词集,对所述目标用户的待识别语音进行识别;
其中,所述目标用户的热词集采用如权利要求1~10中任一项所述的热词获取方法获得。
13.根据权利要求12所述的语音识别方法,其特征在于,所述语音识别模型为个性化语音识别模型,其通过对通用语音识别模型进行优化得到;
所述通用语音识别模型包括通用语言模型和通用声学模型,所述个性化语音识别模型包括采用所述目标用户的历史文本数据对所述通用语言模型进行训练得到的个性化语言模型,以及,采用包含所述目标用户的热词集中热词的语音对所述通用声学模型训练得到的个性化声学模型。
14.一种热词获取装置,其特征在于,包括:用户数据获取模块、候选热词抽取模块、词扩展模块和用户热词确定模块;
所述用户数据获取模块,用于获取目标用户的历史文本数据;
所述候选热词抽取模块,用于基于所述目标用户对所述历史文本数据的编辑行为和/或所述历史文本数据所包含词的特征,从所述历史文本数据中抽取候选热词,以得到候选热词集;
所述词扩展模块,用于基于所述候选热词集中每个候选热词的发音,采用模糊音匹配的方式获取所述候选热词集中每个候选热词对应的扩展词;
所述用户热词确定模块,用于基于所述候选热词集中每个候选热词对应的扩展词,从所述候选热词集中过滤掉非热词,以得到所述目标用户的热词集。
15.一种热词获取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~11中任一项所述的热词获取方法的各个步骤。
16.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~11中任一项所述的热词获取方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011571404.8A CN112735428A (zh) | 2020-12-27 | 2020-12-27 | 一种热词获取方法、语音识别方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011571404.8A CN112735428A (zh) | 2020-12-27 | 2020-12-27 | 一种热词获取方法、语音识别方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735428A true CN112735428A (zh) | 2021-04-30 |
Family
ID=75617011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011571404.8A Pending CN112735428A (zh) | 2020-12-27 | 2020-12-27 | 一种热词获取方法、语音识别方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735428A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268981A (zh) * | 2021-05-27 | 2021-08-17 | 咪咕音乐有限公司 | 一种信息处理方法、装置及电子设备 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113707131A (zh) * | 2021-08-30 | 2021-11-26 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN113889076A (zh) * | 2021-09-13 | 2022-01-04 | 北京百度网讯科技有限公司 | 语音识别及编解码方法、装置、电子设备及存储介质 |
CN114297346A (zh) * | 2021-12-28 | 2022-04-08 | 思必驰科技股份有限公司 | 人名识别的抽取方法、电子设备和存储介质 |
CN114327355A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 语音输入方法、电子设备以及计算机存储介质 |
CN114490981A (zh) * | 2022-01-21 | 2022-05-13 | 珠海格力电器股份有限公司 | 信息反馈方法、系统、存储介质及电子设备 |
CN114613358A (zh) * | 2022-03-12 | 2022-06-10 | 云知声智能科技股份有限公司 | 一种识别包括热词的语音的方法、装置、设备和介质 |
CN116366800A (zh) * | 2023-03-03 | 2023-06-30 | 四川九鼎乾元科技有限公司 | 在线会议方法、装置、存储介质及电子设备 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149370A (ja) * | 1996-11-15 | 1998-06-02 | Nec Corp | 文脈情報を用いた文書検索方法および装置 |
JP2010078877A (ja) * | 2008-09-25 | 2010-04-08 | Pioneer Electronic Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2010197411A (ja) * | 2009-02-20 | 2010-09-09 | Nec Corp | 音声認識装置用言語モデル更新装置および音声認識装置 |
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
JP2015215390A (ja) * | 2014-05-08 | 2015-12-03 | 日本電信電話株式会社 | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム |
CN105489221A (zh) * | 2015-12-02 | 2016-04-13 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN106294396A (zh) * | 2015-05-20 | 2017-01-04 | 北京大学 | 关键词扩展方法和关键词扩展系统 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
DE202017105719U1 (de) * | 2017-09-20 | 2017-11-13 | Google, Inc. | Kontext-Hotwords |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
CN108509555A (zh) * | 2018-03-22 | 2018-09-07 | 武汉斗鱼网络科技有限公司 | 搜索词确定方法、装置、设备及存储介质 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
CN110415705A (zh) * | 2019-08-01 | 2019-11-05 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN111145756A (zh) * | 2019-12-26 | 2020-05-12 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
JP2020126360A (ja) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム |
-
2020
- 2020-12-27 CN CN202011571404.8A patent/CN112735428A/zh active Pending
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10149370A (ja) * | 1996-11-15 | 1998-06-02 | Nec Corp | 文脈情報を用いた文書検索方法および装置 |
JP2010078877A (ja) * | 2008-09-25 | 2010-04-08 | Pioneer Electronic Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2010197411A (ja) * | 2009-02-20 | 2010-09-09 | Nec Corp | 音声認識装置用言語モデル更新装置および音声認識装置 |
CN102567371A (zh) * | 2010-12-27 | 2012-07-11 | 上海杉达学院 | 自动过滤停用词的方法 |
JP2015215390A (ja) * | 2014-05-08 | 2015-12-03 | 日本電信電話株式会社 | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム |
CN106294396A (zh) * | 2015-05-20 | 2017-01-04 | 北京大学 | 关键词扩展方法和关键词扩展系统 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN105489221A (zh) * | 2015-12-02 | 2016-04-13 | 北京云知声信息技术有限公司 | 一种语音识别方法及装置 |
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN108399914A (zh) * | 2017-02-06 | 2018-08-14 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
DE202017105719U1 (de) * | 2017-09-20 | 2017-11-13 | Google, Inc. | Kontext-Hotwords |
CN108509555A (zh) * | 2018-03-22 | 2018-09-07 | 武汉斗鱼网络科技有限公司 | 搜索词确定方法、装置、设备及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110633463A (zh) * | 2018-06-22 | 2019-12-31 | 鼎复数据科技(北京)有限公司 | 一种应用于垂直领域的专业词汇纠错方法及系统 |
CN108984529A (zh) * | 2018-07-16 | 2018-12-11 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
JP2020126360A (ja) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム |
CN110415705A (zh) * | 2019-08-01 | 2019-11-05 | 苏州奇梦者网络科技有限公司 | 一种热词识别方法、系统、装置及存储介质 |
CN111145756A (zh) * | 2019-12-26 | 2020-05-12 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
Non-Patent Citations (2)
Title |
---|
MINI-FEND TSAI.ETAL: "Financial Keyword Expansion via Continuous Word Vector Representations", PROCEEDINGS OF THE 2014 CONFRENCE ON ERREPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP), 31 December 2014 (2014-12-31), pages 1453 - 1458 * |
李渝勤;孙丽华;: "面向互联网舆情的热词分析技术", 中文信息学报, no. 01, 15 January 2011 (2011-01-15) * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268981A (zh) * | 2021-05-27 | 2021-08-17 | 咪咕音乐有限公司 | 一种信息处理方法、装置及电子设备 |
CN113436614A (zh) * | 2021-07-02 | 2021-09-24 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备、系统及存储介质 |
CN113436614B (zh) * | 2021-07-02 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、设备、系统及存储介质 |
CN113707131A (zh) * | 2021-08-30 | 2021-11-26 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及存储介质 |
CN113707131B (zh) * | 2021-08-30 | 2024-04-16 | 中国科学技术大学 | 语音识别方法、装置、设备及存储介质 |
JP2023041610A (ja) * | 2021-09-13 | 2023-03-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 |
CN113889076B (zh) * | 2021-09-13 | 2022-11-01 | 北京百度网讯科技有限公司 | 语音识别及编解码方法、装置、电子设备及存储介质 |
JP7302132B2 (ja) | 2021-09-13 | 2023-07-04 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、符号化・復号化方法、装置、電子機器、及び記憶媒体 |
CN113889076A (zh) * | 2021-09-13 | 2022-01-04 | 北京百度网讯科技有限公司 | 语音识别及编解码方法、装置、电子设备及存储介质 |
CN114297346A (zh) * | 2021-12-28 | 2022-04-08 | 思必驰科技股份有限公司 | 人名识别的抽取方法、电子设备和存储介质 |
CN114327355A (zh) * | 2021-12-30 | 2022-04-12 | 科大讯飞股份有限公司 | 语音输入方法、电子设备以及计算机存储介质 |
CN114490981A (zh) * | 2022-01-21 | 2022-05-13 | 珠海格力电器股份有限公司 | 信息反馈方法、系统、存储介质及电子设备 |
CN114613358A (zh) * | 2022-03-12 | 2022-06-10 | 云知声智能科技股份有限公司 | 一种识别包括热词的语音的方法、装置、设备和介质 |
CN116366800A (zh) * | 2023-03-03 | 2023-06-30 | 四川九鼎乾元科技有限公司 | 在线会议方法、装置、存储介质及电子设备 |
CN116366800B (zh) * | 2023-03-03 | 2023-12-15 | 四川九鼎乾元科技有限公司 | 在线会议方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735428A (zh) | 一种热词获取方法、语音识别方法及相关设备 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN109584865B (zh) | 一种应用程序控制方法、装置、可读存储介质及终端设备 | |
EP4095738A1 (en) | Entity recognition method and apparatus, dictionary creation method, device, and medium | |
EP1469398A1 (en) | Text generating method and text generator | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN111832308A (zh) | 语音识别文本连贯性处理方法和装置 | |
US9711147B2 (en) | System and method for analyzing verbal records of dictation using extracted verbal and phonetic features | |
CN113806486A (zh) | 长文本相似度的计算方法及装置、存储介质、电子装置 | |
CN112562659A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112151019A (zh) | 文本处理方法、装置及计算设备 | |
CN118152570A (zh) | 一种智能化的文本分类方法 | |
CN111858900B (zh) | 问句语义解析规则模板的生成方法、装置、设备及存储介质 | |
CN117995197A (zh) | 语音识别方法、装置、相关设备及计算机程序产品 | |
CN111400489B (zh) | 对话文本摘要生成方法、装置、电子设备和存储介质 | |
CN109918651B (zh) | 同义词性模板获取方法及装置 | |
CN116910218A (zh) | 知识库中扩展问自动挖掘方法及其装置 | |
CN108899016B (zh) | 一种语音文本规整方法、装置、设备及可读存储介质 | |
CN116881536A (zh) | 搜索引擎下拉提示词提取方法及系统 | |
Zechner et al. | Increasing the coherence of spoken dialogue summaries by cross-speaker information linking | |
CN113919339A (zh) | 人工智能辅助写作方法 | |
CN115188376A (zh) | 一种个性化语音交互方法及系统 | |
CN113793611A (zh) | 评分方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |