CN110210028B - 针对语音转译文本的领域特征词提取方法、装置、设备及介质 - Google Patents

针对语音转译文本的领域特征词提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN110210028B
CN110210028B CN201910466124.1A CN201910466124A CN110210028B CN 110210028 B CN110210028 B CN 110210028B CN 201910466124 A CN201910466124 A CN 201910466124A CN 110210028 B CN110210028 B CN 110210028B
Authority
CN
China
Prior art keywords
word
words
domain feature
value
voice translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910466124.1A
Other languages
English (en)
Other versions
CN110210028A (zh
Inventor
嵇望
陈默
程伟
邱霞霞
钱艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan Xinye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan Xinye Technology Co ltd filed Critical Hangzhou Yuanchuan Xinye Technology Co ltd
Priority to CN201910466124.1A priority Critical patent/CN110210028B/zh
Publication of CN110210028A publication Critical patent/CN110210028A/zh
Application granted granted Critical
Publication of CN110210028B publication Critical patent/CN110210028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音文本处理领域,公开了一种针对语音转译文本的领域特征词提取方法,用于提取语音转译文本中的领域特征词,该方法包括以下步骤:获取语音转译文本,对所述语音转译文本进行纠错处理;获取所述语音转译文本中的复合新词,将复合新词加入自定义词典;对纠错处理后的语音转译文本进行领域特征词提取。本发明还提供一种针对语音转译文本的领域特征词提取装置、电子设备和计算机存储介质。

Description

针对语音转译文本的领域特征词提取方法、装置、设备及介质
技术领域
本发明涉及语音文本处理领域,尤其涉及一种针对语音转译文本的领域特征词提取方法、装置、设备及介质。
背景技术
随着人工智能技术的不断发展,语音转译文本是语音交互会话的产物,其中包含了大量的重要信息,而领域特征词是能反映某一领域文本特征或共性的词语,领域特征词抽取是自然语言处理中的一项重要任务。随着自然语言技术在实际生活中的不断运用,领域特征词提取方向不断被研究。
领域特征词抽取被广泛应用于本体构建、自动摘要、文本聚类、文本检索等领域。如果单纯依靠语言学专家抽取领域术语费时费力,从而无法形成批量处理,因此开发一种自动化的方法来辅助语音转译文本的术语抽取显得尤为必要,能为面向不同领域的应用提供重要语言研究资源。
然而领域特征词中包含较多的复合词,依靠单纯的分词无法获取,并且语音转译文本存在着不可避免的转译错误问题,从而严重影响着领域特征词的提取效果。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种针对语音转译文本的领域特征词提取方法,将文本纠错、新词发现与领域特征词提取方法结合,实现采用自动化的方法自动提取领域特征词,且提取效果好。
本发明的目的之一采用以下技术方案实现:
针对语音转译文本的领域特征词提取方法,包括以下步骤:
获取语音转译文本,对所述语音转译文本进行纠错处理;
确定所述语音转译文本中的复合新词,将复合新词加入自定义词典;
基于所述自定义词典,对所述纠错处理后的语音转译文本进行分词;
对分词后的语音转译文本进行领域特征词提取。
进一步地,所述语音转译文本的纠错处理方法如下:
获取所述语音转译文本的拼音字符串,计算所述拼音字符串与通用动词性及通用名词性词语拼音的编辑距离,将编辑距离值≤1的拼音字符串作为候选纠错字串;
利用特定领域内的文本数据作为训练语料训练出语言模型;
使用所述语言模型计算不同候选纠错字串在特定位置的概率值,判定概率最大的候选纠错字串,作为所述语音转译文本特定位置的正确词语,从而完成纠错处理。
进一步地,确定所述语音转译文本中的复合新词的方法如下:
Step1:对所述语音转译文本进行分词,将得到的分词结果存储到字典树;
Step2:使用所述字典树统计所述分词结果的词频,利用互信息算法和信息熵算法分别计算所述分词结果的内部凝聚力MI和左右熵,得到分词得分score=MI+min(左熵,右熵);
Step3:以得分score进行降序排序后,过滤重复词,最后按排序由前至后依次获取复合新词,将获取到的所述复合新词加入自定义词典。
进一步地,选择特定领域语料和背景语料,将所述背景语料与所述特定领域语料进行对比,得到领域特征词;基于统计量度的方法统计领域特征词在特定领域语料与背景语料中的不同用词规律,从而实现领域特征词的提取。
进一步地,基于统计量度的方法为:结合DR+DC和NCD+NDD进行领域特征词统计度量,所述领域特征词提取过程为:
步骤1:基于所述自定义词典,将纠错处理后的语音转译文本进行分词,得到分词结果;
步骤2:计算各分词的DR值、DC值、NCD值和NDD值;
步骤3:依次过滤DR值≤0的领域不相关词、DC值≤0的领域噪声词;
步骤4:经过滤,得到同时满足以下条件的分词作为候选领域特征词:分词的NCD值<阈值α,特定领域Dk的值最大;
步骤5:过滤得到NDD值>阈值β(的词语作为候选领域特征词;
步骤6:计算步骤4和步骤5的候选领域特征词的权重,按权重排序输出领域特征词,得到领域特征集合;
其中,分词t与特定领域Dk的DR值计算公式如下:
Figure BDA0002079266230000031
P(t|Cfk)、P(t|Cfb)分别为分词t在特定领域语料Cfk和背景语料Cfb中出现的概率,TFt,k是分词t在特定领域语料Cfk中出现的频率;若DR值≤0,则说明该词语与特定领域Dk不相关;
分词t与特定领域Dk的DC值的计算公式如下:
Figure BDA0002079266230000032
其中,Pt(cj)的估计为:
Figure BDA0002079266230000033
tft,j为分词t出现在特定领域语料Cfk的第j个文本中的频率,若DC值≤0,则说明该词语只在特定领域语料Cfk的一个文档中出现过,则该词语非领域特征词;
分词t与特定领域Dk的NCD值的计算公式如下:
Figure BDA0002079266230000041
其中,
Figure BDA0002079266230000042
其中,P′(Di|t)表示分词t出现在特定领域Dk中的概率,Lk表示特定领域Dk包含的所有文档长度之和,m代表领域类别个数;若词语t的NCD值<阈值α,且特定领域的Dk值最大,则认为分词t为特定领域Dk的候选领域特征词;
分词t与特定领域Dk的NDD值的计算公式如下:
Figure BDA0002079266230000043
其中,
Figure BDA0002079266230000044
式中,dkj、dki代表特定领域Dk中的第j个、第i文档,nk代表特定领域Dk中的文档数目,lkj、lki代表文档dkj、dki的长度,即在该文档中出现的所有词语的词频之和,NDD值>阈值β的分词t作为候选领域特征词;
经以上步骤的过滤筛选后得到候选领域特征词,利用如下公式计算候选领域特征词在特定领域Dk中的权重:
RS(t,Dk)=-θNCD(t)/log m+(1-θ)NDD(t,Dk)/lognk
本发明的目的之二在于提供一种针对语音转译文本的领域特征词提取装置,实现领域特征词的自动提取。
本发明的目的之二采用以下技术方案实现:
针对语音转译文本的领域特征词提取装置,其包括:
数据获取模块,用于获取语音转译语料;
文本纠错模块,用于对所述语音转译语料进行纠错处理;
新词发现模块,用于获取所述语音转译语料中的复合新词;
领域特征词提取模块,用于对所述文本纠错模块处理后的语音转译语料进行领域特征词提取;
数据输出模块,用于输出领域特征词。
本发明的目的之三在于提供执行发明目的之一的电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,所述计算机程序被处理器执行时实现上述的针对语音转译文本的领域特征词提取方法。
本发明的目的之四在于提供存储发明目的之一的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的针对语音转译文本的领域特征词提取方法。
相比现有技术,本发明的有益效果在于:
本发明通过对语音转译文本的纠错处理,保证了语音转译文本的准确率,为后续的领域特征词的提取提供准确的样本,避免因语音转译错误对领域特征词的提取产生不利影响;因领域特征词中包含较多的复合词,复合新词的发现用于完善分词词典,使得分词词典包含通用词和复合新词,使得分词效果好,基于该分词结果提取出的领域特征词更加准确,使得领域特征词的提取效果好。
附图说明
图1是本发明针对语音转译文本的领域特征词提取方法的流程图;
图2是实施例1中语音转译文本纠错处理方法的流程图;
图3是实施例2的针对语音转译文本的领域特征词提取装置的结构框图;
图4是实施例3的电子设备的结构框图。
具体实施方式
以下将结合附图,对本发明进行更为详细的描述,需要说明的是,下参照附图对本发明进行的描述仅是示意性的,而非限制性的。各个不同实施例之间可以进行相互组合,以构成未在以下描述中示出的其他实施例。
实施例1
本实施例提供了一种针对语音转译文本的领域特征词提取方法,旨在通过对语音转译文本的纠错处理,进而保证语音转译文本的准确率,使得为后续领域特征词提取提供可靠样本;对语音转译文本进行复合新词发现,克服通用词典不能对复合新词的识别的缺陷,而特征领域词包含大量的复合词,发现复合新词来完善通用词典,进一步保证后续领域特征词的提取效果;基于统计量度的方法从领域分类语料中统计用词规律从而提取领域特征词,采用DR算法+DC算法和NCD算法+NDD算法的结合实现领域特征词的提取。
如图1所示,针对语音转译文本的领域特征词提取方法,其包括以下步骤:
获取语音转译文本,对语音转译文本进行纠错处理;
确定该语音转译文本中的复合新词,将复合新词加入自定义词典;
基于上述自定义词典,对纠错处理后的语音转译文本进行分词;
对分词后的语音转译文本进行领域特征词提取。
如图2所示,在本实施例中,对语音转译文本的纠错处理方法如下:
获取语音转译文本的拼音字符串,计算所述拼音字符串与通用动词性及通用名词性词语拼音的编辑距离,将编辑距离值≤1的拼音字符串作为候选纠错字串;为了提高纠错准确率,只对编辑距离值≤1的进行纠错处理,由于汉语中存在同音字、同音词、近音词的现象,所以一般存在多个词语与语音转译文本中的拼音字符串的编辑距离值≤1的情况。
利用特定领域内的文本数据作为训练语料训练出语言模型。
该语言模型是用于描述词或语句等不同语法单元的概率分布的模型,即衡量字符串s的概率分布p(s),p(s)反映s作为一个句子出现的概率。通过该语言模型能够衡量某个词序列是否符合该语言环境下的行文说话方式。
使用所述语言模型计算不同候选纠错字串在特定位置的概率值,判定概率最大的候选纠错字串,作为所述语音转译文本特定位置的正确词语,从而完成纠错处理。
上述编辑距离是指的是两个拼音字符串之间,将一个拼音字符串转换成另一个最少需要的编辑操作次数,其编辑操作包含三种:其一为将一个字符替换成另一个字符;其二为删除一个字符;其三为插入一个字符。
编辑距离越小,则说明两个字串之间的相似度越大。
两个拼音字符串的编辑距离举例:
“hang zhou”→“hang zou”:需插入一个字符,编辑距离为1;
“hang zhou”→“chang zhou”:需删除一个字符,编辑距离为1;
“hang zhou”→“heng zou”:需替换一个字符,编辑距离为1。
在此对上述语言模型的训练过程进行介绍:
假设由m个词按顺序构成的一个句子表示为:
Figure BDA0002079266230000081
则这个句子的概率表示为:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wm|w1,w2...wm-1);
条件概率P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wm|w1,w2...wm-1)的参数确定后,就可以计算P(W),在本实施例中采用n-gram语言模型。
n-gram语言模型即n-1阶马尔科夫模型,该模型假设:当前词的出现概率仅与前面n-1个词相关,则P(W)可近似为:
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wm|w1,w2...wm-1)
≈P(w1)P(w2|w1)...P(wk|wk-1,wk-2,...wk-n+1)...P(wm|wm-1,wm-2...wm-n+1)
模型参数P(wk|wk-1,wk-2,...wk-n+1)的估计即为模型的训练过程,一般采用最大似然估计的方法对参数进行估计:
P(wk|wk-1,wk-2,...wk-n+1)=C(wk-n+1,...wk-1,wk)/C(wk-n+1,...wk-1),
其中C(wk-n+1,...wk-1)为词序列wk-n+1,...wk-1在训练语料中出现的次数。
上述复合新词的确定就是不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段,比如给定一段文本,随机取一个片段,如果这个片段左右的搭配很丰富,并且片段内部成分搭配很固定,则认为这是一个词,将这样的片段筛选出来,按照频率由高到低排序,排在前面的那些即为词语。如果文本足够大,可采用通用的词典过滤掉“旧词”以得到“新词”。
基于上述复合新词的技术思想,利用互信息算法来衡量词语之间的内部凝聚力,利用信息熵算法来衡量一个文本片段的左邻字集合和右邻字集合的外部自由度,找出内部凝聚力,外部自由度最小的词语作为新词。
互信息(Mutual Information)算法,缩写为MI,表示两个变量X与Y是否有关系,以及关系的强弱。
词片段的内部信息定义为:词片段的概率/子序列概率的积,将其取对数,就得到了互信息:
Figure BDA0002079266230000091
若词片段中有多个子序列,将多个子序列的互信息累加起来作为最终的“聚合度”,比如“电影院”=“电+影院”+“电影+院”。
熵表示随机变量不确定性的量度。具体表述如下:一般地,设X是取有限个值的随机变量(或者说X是有限个离散事件的概率场),X取值x的概率为P(x),则X的熵定义为:
Figure BDA0002079266230000092
而左右熵是指多字词表达的左边界的熵和右边界的熵。以左熵为例,对一个词左边所有可能出现的词以及词频,计算信息熵,然后求和。左右熵的公式如下:
左熵:
Figure BDA0002079266230000093
右熵:
Figure BDA0002079266230000094
其中,W表示待计算熵的词语,aW为词语W左边搭配的字词,Wb表示词语W右边搭配的字词。
基于上述技术和算法思想,确定上述语音转译文本中的复合新词的具体方法如下:
Step1:对所述语音转译文本利用jieba分词组件进行粗分词,将得到的分词结果存储到字典树;
Step2:使用所述字典树统计所述分词结果的词频,利用互信息算法和信息熵算法分别计算所述分词结果的内部凝聚力MI和左右熵,得到分词得分score=MI+min(左熵,右熵);
Step3:以得分score进行降序排序后,过滤重复词,最后按排序由高到低获取复合新词,将获取到的所述复合新词加入自定义词典。
在Step2中,还引入jieba分词组件自带的词频表作为外部数据源,理由是语言转译文本不能正确反映单个词的词频。
在Step3中,根据具体情况可设置获取复合新词的数量,如设置取n个复合新词,在得分score进行降序排序后,取前列的n个词作为复合新词加入自定义词典;过滤重复词操作是,若排序在前的待选词属于排序在后的待选词的一部分,则删除排序在后的待选词。
优选地,选择特定领域语料和背景语料,将背景语料与特定领域语料进行对比,得到领域特征词;背景语料由三个以上不同领域且与特定领域语料也分属于不同领域的语料文档组成。
基于统计量度的方法统计领域特征词在特定领域语料与背景语料中的不同用词规律,从而实现领域特征词的提取。
本实施例采用的基于统计量度的方法为:结合DR算法+DC算法和NCD算法+NDD算法进行领域特征词统计度量。DR(Domain Relevance,领域相关度)算法和DC(DomainConsensus,领域均匀度)算法分别用于计算词语的领域相关性和领域一致性,领域一致性是指词语在其相关领域的所有文档中分布的一致性,它对获取高质量领域术语起重要作用。
但是DR算法和DC算法的缺点是没有考虑不同领域语料的规模以及不同文档长度对领域术语抽取的影响,因此引入NCD算法和NDD算法,分别从类间分布、类内分布以及语料规模三方面来衡量每个词语,为了消除语料规模对词语的出现带来的影响,引入了基于领域规模的标准化方法,能够更加准确、稳定的度量领域术语。
基于上述原理,领域特征词提取过程为:
步骤1:基于上述自定义词典,将纠错处理后的语音转译文本进行分词,得到分词结果;
步骤2:计算各分词的DR值、DC值、NCD值和NDD值;
步骤3:依次过滤DR值≤0的领域不相关词、DC值≤0的领域噪声词;
步骤4:经过滤,得到同时满足以下条件的分词作为候选领域特征词:分词的NCD值<阈值α,特定领域Dk的值最大;
步骤5:过滤得到NDD值>阈值β的词语作为候选领域特征词;
步骤6:计算步骤4和步骤5的候选领域特征词的权重,按权重排序输出领域特征词,得到领域特征集合。
将上述分词结果中的分词表示为t,其中,分词t与特定领域Dk的DR值计算公式如下:
Figure BDA0002079266230000111
P(t|Cfk)、P(t|Cfb)分别为分词t在特定领域语料Cfk和背景语料Cfb中出现的概率,TFt,k是分词t在特定领域语料Cfk中出现的频率;若DR值≤0,则说明该词语与特定领域Dk不相关。
DC值能反映词语在特定领域语料的各个文本中分布的均匀程度,DC值越高,表示该词在特定领域语料中分布的越均匀,是领域特征词的可能性较大。在本实例中,分词t与特定领域Dk的DC值的计算公式如下:
Figure BDA0002079266230000112
其中,Pt(cj)的估计为:
Figure BDA0002079266230000121
tft,j为分词t出现在特定领域语料Cfk的第j个文本中的频率,若DC值≤0,则说明该词语只在特定领域语料Cfk的一个文档中出现过,则该词语非领域特征词。
NCD为基于标准化的类间分布,类间分布值越小,说明该词语越有可能成为某个或某几个领域的领域特征词。
在此,分词t与特定领域Dk的NCD值的计算公式如下:
Figure BDA0002079266230000122
其中,
Figure BDA0002079266230000123
P′(Di|t)表示分词t出现在特定领域Dk中的概率,Lk表示特定领域Dk包含的所有文档长度之和,m代表领域类别个数;若词语t的NCD值<阈值α,且特定领域的Dk值最大,则认为分词t为特定领域Dk的候选领域特征词,在本实施例中,阈值α的取值为2.5,当然在本发明的其他实施例中,可以根据实际情况进行对阈值α的取值进行调整,若过滤后的到词语数量少,则对应调大阈值α的取值。
NDD为基于标准化的类内分布,类内分布值越大,则该词语越有可能成为特定领域Dk的领域特征词。
而分词t与特定领域Dk的NDD值的计算公式如下:
Figure BDA0002079266230000124
其中,
Figure BDA0002079266230000131
式中,dkj、dki代表特定领域Dk中的第j个、第i文档,nk代表特定领域Dk中的文档数目,lkj、lki代表文档dkj、dki的长度,即在该文档中出现的所有词语的词频之和,NDD值>阈值β的分词t作为候选领域特征词,在本实施例中,阈值β的取值为0.5(在本发明的其他实施例中,阈值β的取值需根据实际情况进行调整,若经过滤后得到的词语数量过少,则对应调小阈值β的值)。若特定领域Dk内的文档存在词t只在Dk内的一篇文档中出现多次的情况,这种属于偶然情况,t不能作为该领域的候选领域特征词,所以通过衡量t的NDD值以排除候选领域特征词类似噪声。
经以上步骤的过滤筛选后得到候选领域特征词,利用如下公式计算候选领域特征词在特定领域Dk中的权重:
RS(t,Dk)=-θNCD(t)/logm+(1-θ)NDD(t,Dk)/lognk,其中θ=0.5,此处θ的取值为经验较优值,在本发明的其他实施例中,可根据实际情况重新确定θ取值。
实施例2
本实施例公开了一种对应实施例1的针对语音转译文本的领域特征词提取方法的装置,为实施例1的虚拟装置结构,如图3所示,包括:。
数据获取模块310,用于获取语音转译语料;
文本纠错模块320,用于对语音转译语料进行纠错处理,具体通过应用实施例1中提供的语音转译文本的纠错处理方法完成纠错处理;
新词发现模块330,用于获取所述语音转译语料中的复合新词,具体通过应用实施例1中提供的复合新词确定方法,并将获取到的复合新词加入到自定义词典;
领域特征词提取模块340,用于对所述文本纠错模块处理后的语音转译语料进行领域特征词提取,在该领域特征词提取模块中,基于新词发现模块提供的自定义词典,先对经文本纠错模块纠错处理后的语音转译语料进行分词,再利用DR算法+DC算法和NCD算法+NDD算法完成领域特征词的提取;
数据输出模块350,用于输出领域特征词。
实施例3
图4为本实施例提供的一种电子设备的结构示意图,如图4所示,该电子设备包括处理器410、存储器420、输入装置430和输出装置440;计算机设备中处理器410的数量可以是一个或多个,而图4中以一个处理器410为例;电子设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,而图4中以总线连接方式为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例1中的针对语音转译文本的领域特征词提取方法对应的程序指令/模块(例如,语音转译文本的领域特征词提取装置中的数据获取模块310、文本纠错模块320、新词发现模块330、领域特征词提取模块340和数据输出模块350)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述实施例1的针对语音转译文本的领域特征词提取方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的语音转译文本等数据。输出装置440可包括显示屏等显示设备,用于输出和显示领域特征词提取结果。
实施例4
本实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行针对语音转译文本的领域特征词提取方法,该方法包括:
获取语音转译文本,对语音转译文本进行纠错处理;
确定该语音转译文本中的复合新词,将复合新词加入自定义词典;
基于上述自定义词典,对纠错处理后的语音转译文本进行分词;
对分词后的语音转译文本进行领域特征词提取。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于针对语音转译文本的领域特征词提取方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述基于针对语音转译文本的领域特征词提取方法装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (7)

1.一种针对语音转译文本的领域特征词提取方法,其特征在于,包括以下步骤:
获取语音转译文本,对所述语音转译文本进行纠错处理,所述语音转译文本的纠错处理方法如下:
获取所述语音转译文本的拼音字符串,计算所述拼音字符串与通用动词性及通用名词性词语拼音的编辑距离,将编辑距离值≤1的拼音字符串作为候选纠错字串;
利用特定领域内的文本数据作为训练语料训练出语言模型;
使用所述语言模型计算不同候选纠错字串在特定位置的概率值,判定概率最大的候选纠错字串,作为所述语音转译文本特定位置的正确词语,从而完成纠错处理;
确定所述语音转译文本中的复合新词,将复合新词加入自定义词典;
基于所述自定义词典,对所述纠错处理后的语音转译文本进行分词;
对分词后的语音转译文本进行领域特征词提取。
2.如权利要求1所述的针对语音转译文本的领域特征词提取方法,其特征在于,确定所述语音转译文本中的复合新词的方法如下:
Step1:对所述语音转译文本进行分词,将得到的分词结果存储到字典树;
Step2:使用所述字典树统计所述分词结果的词频,利用互信息算法和信息熵算法分别计算所述分词结果的内部凝聚力MI和左右熵,得到分词得分score=MI+min(左熵,右熵);
Step3:以得分score进行降序排序后,过滤重复词,最后按排序由前至后依次获取复合新词,将获取到的所述复合新词加入自定义词典。
3.如权利要求2所述的针对语音转译文本的领域特征词方法,其特征在于,选择特定领域语料和背景语料,将所述背景语料与所述特定领域语料进行对比,得到领域特征词;基于统计量度的方法统计领域特征词在特定领域语料与背景语料中的不同用词规律,从而实现领域特征词的提取。
4.如权利要求3所述的针对语音转译文本的领域特征词提取方法,其特征在于,基于统计量度的方法为:结合DR+DC和NCD+NDD进行领域特征词统计度量,所述领域特征词提取过程为:
步骤1:基于所述自定义词典,将纠错处理后的语音转译文本进行分词,得到分词结果;
步骤2:计算各分词的DR值、DC值、NCD值和NDD值;
步骤3:依次过滤DR值≤0的领域不相关词、DC值≤0的领域噪声词;
步骤4:经过滤,得到同时满足以下条件的分词作为候选领域特征词:分词的NCD值<阈值α,特定领域Dk的值最大;
步骤5:过滤得到NDD值>阈值β的词语作为候选领域特征词;
步骤6:计算步骤4和步骤5的候选领域特征词的权重,按权重排序输出领域特征词,得到领域特征集合;
其中,分词t与特定领域Dk的DR值计算公式如下:
Figure FDA0003995477430000021
P(t|Cfk)、P(t|Cfb)分别为分词t在特定领域语料Cfk和背景语料Cfb中出现的概率,TFt,k是分词t在特定领域语料Cfk中出现的频率;若DR值≤0,则说明该词语与特定领域Dk不相关;
分词t与特定领域Dk的DC值的计算公式如下:
Figure FDA0003995477430000031
其中,Pt(cj)的估计为:
Figure FDA0003995477430000032
tft,j为分词t出现在特定领域语料Cfk的第j个文本中的频率,若DC值≤0,则说明该词语只在特定领域语料Cfk的一个文档中出现过,则该词语非领域特征词;
分词t与特定领域Dk的NCD值的计算公式如下:
Figure FDA0003995477430000033
其中,
Figure FDA0003995477430000034
其中,P′(Di|t)表示分词t出现在特定领域Dk中的概率,Lk表示特定领域Dk包含的所有文档长度之和,m代表领域类别个数;若词语t的NCD值<阈值α,且特定领域的Dk值最大,则认为分词t为特定领域Dk的候选领域特征词;
分词t与特定领域Dk的NDD值的计算公式如下:
Figure FDA0003995477430000035
其中,
Figure FDA0003995477430000041
式中,dkj、dki代表特定领域Dk中的第j个、第i文档,nk代表特定领域Dk中的文档数目,lkj、lki代表文档dkj、dki的长度,即在该文档中出现的所有词语的词频之和,NDD值>阈值β的分词t作为候选领域特征词;
以上步骤的过滤筛选后得到候选领域特征词,利用如下公式计算候选领域特征词在特定领域Dk中的权重:
RS(t,Dk)=-θNCD(t)/log m+(1-θ)NDD(t,Dk)/log nk
5.一种针对语音转译文本的领域特征词提取装置,其特征在于,包括:
数据获取模块,用于获取语音转译语料;
文本纠错模块,用于对所述语音转译语料进行纠错处理;所述语音转译文本的纠错处理方法如下:
获取所述语音转译文本的拼音字符串,计算所述拼音字符串与通用动词性及通用名词性词语拼音的编辑距离,将编辑距离值≤1的拼音字符串作为候选纠错字串;
利用特定领域内的文本数据作为训练语料训练出语言模型;
使用所述语言模型计算不同候选纠错字串在特定位置的概率值,判定概率最大的候选纠错字串,作为所述语音转译文本特定位置的正确词语,从而完成纠错处理;
新词发现模块,用于获取所述语音转译语料中的复合新词;
领域特征词提取模块,用于对所述文本纠错模块处理后的语音转译语料进行领域特征词提取;
数据输出模块,用于输出领域特征词。
6.一种电子设备,其包括处理器、存储介质以及计算机程序,所述计算机程序存储于存储介质中,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的针对语音转译文本的领域特征词提取方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4任一项所述的针对语音转译文本的领域特征词提取方法。
CN201910466124.1A 2019-05-30 2019-05-30 针对语音转译文本的领域特征词提取方法、装置、设备及介质 Active CN110210028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910466124.1A CN110210028B (zh) 2019-05-30 2019-05-30 针对语音转译文本的领域特征词提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910466124.1A CN110210028B (zh) 2019-05-30 2019-05-30 针对语音转译文本的领域特征词提取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110210028A CN110210028A (zh) 2019-09-06
CN110210028B true CN110210028B (zh) 2023-04-28

Family

ID=67789670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910466124.1A Active CN110210028B (zh) 2019-05-30 2019-05-30 针对语音转译文本的领域特征词提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110210028B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN111160013B (zh) * 2019-12-30 2023-11-24 北京百度网讯科技有限公司 文本纠错方法及装置
CN111460170B (zh) * 2020-03-27 2024-02-13 深圳价值在线信息科技股份有限公司 一种词语识别方法、装置、终端设备及存储介质
CN111985234B (zh) * 2020-09-08 2022-02-01 四川长虹电器股份有限公司 语音文本纠错方法
CN113486680B (zh) * 2021-07-23 2023-12-15 平安科技(深圳)有限公司 文本翻译方法、装置、设备及存储介质
CN113591440B (zh) * 2021-07-29 2023-08-01 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质
CN114330336A (zh) * 2021-11-19 2022-04-12 福建亿榕信息技术有限公司 一种基于左右信息熵和互信息的新词发现方法以及装置
CN114912437B (zh) * 2022-04-29 2024-07-19 上海交通大学 弹幕颜文字检测与提取方法、系统、终端及介质
CN117763153B (zh) * 2024-02-22 2024-04-30 大汉软件股份有限公司 一种专题语料发现新词的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014702A1 (fr) * 2006-07-25 2008-02-07 Beijing Sogou Technology Development Co., Ltd. Procédé et système d'extraction de mots nouveaux
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108804617A (zh) * 2018-05-30 2018-11-13 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014702A1 (fr) * 2006-07-25 2008-02-07 Beijing Sogou Technology Development Co., Ltd. Procédé et système d'extraction de mots nouveaux
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107608963A (zh) * 2017-09-12 2018-01-19 马上消费金融股份有限公司 一种基于互信息的中文纠错方法、装置、设备及存储介质
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN108804617A (zh) * 2018-05-30 2018-11-13 广州杰赛科技股份有限公司 领域术语抽取方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN110210028A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110210028B (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN111967262A (zh) 实体标签的确定方法和装置
CN104899190B (zh) 分词词典的生成方法和装置及分词处理方法和装置
CN113053367B (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN106528532A (zh) 文本纠错方法、装置及终端
CN106897439A (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN104111925B (zh) 项目推荐方法和装置
CN110717340B (zh) 推荐方法、装置、电子设备及存储介质
CN106445915B (zh) 一种新词发现方法及装置
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN111177375B (zh) 一种电子文档分类方法及装置
CN112528653B (zh) 短文本实体识别方法和系统
CN110245361B (zh) 短语对提取方法、装置、电子设备及可读存储介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN109298796B (zh) 一种词联想方法及装置
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN109871540A (zh) 一种文本相似度的计算方法以及相关设备
CN114595684A (zh) 一种摘要生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ji Wang

Inventor after: Chen Mo

Inventor after: Cheng Wei

Inventor after: Qiu Xiaxia

Inventor after: Qian Yan

Inventor before: Ji Wang

Inventor before: Chen Mo

Inventor before: Cheng Wei

Inventor before: Qiu Xiaxia

Inventor before: Qian Yan

CB03 Change of inventor or designer information
CB02 Change of applicant information

Address after: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Applicant after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Applicant before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant