CN101593518A - 实际场景语料和有限状态网络语料的平衡方法 - Google Patents
实际场景语料和有限状态网络语料的平衡方法 Download PDFInfo
- Publication number
- CN101593518A CN101593518A CNA2008101132924A CN200810113292A CN101593518A CN 101593518 A CN101593518 A CN 101593518A CN A2008101132924 A CNA2008101132924 A CN A2008101132924A CN 200810113292 A CN200810113292 A CN 200810113292A CN 101593518 A CN101593518 A CN 101593518A
- Authority
- CN
- China
- Prior art keywords
- language material
- language
- finite state
- state network
- actual scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000463 material Substances 0.000 title claims abstract description 146
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013461 design Methods 0.000 claims description 12
- 238000012797 qualification Methods 0.000 claims description 12
- 230000006735 deficit Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 abstract description 9
- 238000002156 mixing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明是一种实际场景语料和有限状态网络(Finite State Network,FSN)语料的平衡方法。为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2部分:一部分是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一部分是用有限状态网络句法规则方法生成的语料,称为FSN语料。本发明重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为依据,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。用该方法得到的语料训练的语言模型使连续语音识别器的识别性能有了较大提高。
Description
技术领域
本发明属于计算机技术领域,涉及连续语音识别器的语言模型,尤其涉及限定领域语音问答系统中语言模型的训练语料制作问题,特别是一种考虑了实际场景语料和针对实际场景设计的有限状态网络(Finite StateNetwork,FSN)语料的平衡方法。
背景技术
限定领域的语言模型的训练的主要难点之一就是训练数据稀疏,针对这一问题的研究主要集中在两个方面:一方面是语料的扩展,另一方面是语料平滑算法。语料平滑算法不是从根源解决数据稀疏问题,只能在一定程度上解决数据稀疏带来的问题,而且有的算法本身存在一些缺点,如Good-Turning Discounting算法人为的改变了n元文法的某些子集的频度,带来了一些问题。因此,扩展语料以提高语言模型的性能的研究值得重视。
扩展语料的一般方法是结合已有的实际应用场景语料和人工设计的语料,得到较全面的语言模型训练语料。然而,这里存在一个突出的问题就是:这2种语料以何种方式混合,混合的比例如何确定。实际上,两种语料混合比例的不同,将很大程度上影响识别器的识别性能。针对上述语料平衡问题,L.Villasenor-Pineda提出了一种基于2个语料中词汇概率分布比较来扩展语料的方法。该方法通过一种“Wizard of Oz”实验获取实际场景语料,通过“CLIPS-Index web robot”从网络文本中提取领域相关的30GB左右语料作为原始训练语料,然后比较2种语料中词汇概率分布来平衡实际场景语料和原始训练语料,使语言模型的困惑度下降,2-gram识别率提高。但是,“Wizard of Oz”实验并不是真正的实际应用场景,通过该实现获取的语料不够贴近实用;另外,从网络获取原始训练语料时,由于网络数据量极大,以及搜索引擎的限制,从网络中提取的这部分语料(尽管多达30GB)不一定能较好的覆盖限定领域的词和句法。另外,部分简单对话系统用FSN句法规则产生的训练语料来训练语言模型,取得了较好的效果,但这种方法产生的训练语料句法形式固定,词汇不全面,只适合简单的、对话形式固定的应用场合。
发明内容
为了解决以上问题,本发明将语音交互机器人在科技馆等实际应用环境下的录音进行整理,得到的语料作为参考语料(reference corpus,CR),根据参考语料中词频较高的词,在有限状态网络(Finite State Network,FSN)句法规则指导下生成FSN语料,作为原始训练语料(training corpus,CT),希望这2种语料能较好的覆盖限定领域的词和句法。显然,原始训练语料CT难以充分体现自然对话,因此,本发明用实际应用场景CR来扩展它,扩展FSN语料的原则就是使关键词词表中各词在FSN语料中的概率与在参考语料中的概率之差小于某一阈值,保持2个语料的词汇相似性。
具体地,本发明提出一种实际场景语料和有限状态网络(FSN)语料的平衡方法,包括如下步骤:
1)整理实际应用场景下的录音,得到实际场景语料;
2)采用有限状态网络句法规则设计限定领域语料;
3)采用语料平衡方法,将部分实际场景语料按设定的倍数复制到有限状态网络语料中,得到最终训练语料。
进一步,所述步骤1)包括:
分析实际引用场景下的录音,记录每句录音对应的文本语句,得到实际场景语料。
进一步,所述步骤2)包括:
获取有限状态网络扩展所需的限定领域词汇;
对限定领域词汇进行词汇分类和词汇扩展;
根据扩展后的词汇表,设计有限状态网络句法规则;
用有限状态网络规则解释器生成有限状态网络语料。
进一步,所述步骤3)包括:
选择实际场景语料和有限状态网络语料中都包含的关键词,
比较所述关键词在两个语料中出现的概率,找出概率差异较大的关键词,标记为全异词;
从实际场景语料中提取包含全异词的所有语料,通过概率统计方法,计算参考语料的复制倍数R;
将选择语料复制R倍到有限状态网络语料中,得到最终训练语料。
进一步,所述计算复制倍数R包括:
设选择语料集CS词数为M,第m个词为Wm,这个词在实际场景语料CR和FSN语料CT中的概率分别为pm CR和pm CT,这个词在选择语料CS中出现的次数为fm CS,FSN语料中句子数为|CT|,则:
原始训练语料CT中需要补充W m的次数为
deficitm=(pm CR-pm CT)×|CT|
第m个关键词要求CS被复制的倍数为
Rm=deficitm/fm CS
取选择语料实际复制倍数为
R=max{Rm}1≤m≤M。
采用本发明提出的方法得到的实际场景语料和FSN语料的平衡语料,具有词汇全面、准确的特点。用该语料训练的语言模型,能使口语对话系统较好的识别限定领域的语句。
附图说明
图1是本发明提出的方法所对应的各模块框图;
图2是本发明所提方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的目的是这样实现的:
一、生成FSN语料
FSN是一种常用的语法结构表现形式。最初主要用于基于规则的语音识别系统中,作为搜索网络。本文用FSN的概念来设计句法规则,并用相关程序生成语料,这些语料将用来训练n-gram语言模型。n-gram语言模型是统计语言模型的一种,统计语言模型通常用链式法则来估计一个句子的概率:
其中,wi是句子中的第i个词,hi={w1,w2,...,wi-1}称为历史。最常用的对历史的划分方法是n-gram文法,它假设当前词仅依赖于前面n-1个词,即:
n的取值反映了概率估计的稳定性和精确性之间的折衷。当训练样本很多时,n通常取3;当训练样本很少时,n通常取2。最常用的模型是三元文法模型,本方法采用三元文法模型。
生成FSN语料的具体步骤为:
1.获取限定领域词汇并扩展词汇表:首先将实际场景语料中词频高于某一阈值的词作为关键词,得到限定领域词汇表。然后用增加同义词、增加反义词等方法扩展词汇表。
2.设计FSN句法规则并生成FSN语料:首先根据扩展后的词汇表设计FSN句法规则。然后用FSN规则解释器生成FSN语料。
FSN规则的定义、Root规则、FSN规则完整实例及FSN规则解释器说明如下:
FSN规则的定义
一个语法文件由若干规则组成。规则的定义形式为:“$”+“规则名”+“=”+规则内容+“;”。
规则名由非“.”,“,”,“-”符号的字母、数字和下划线组成,大小写敏感。一个语法文件不允许有重名规则。
规则内容由以下几部分组成:
特殊符号:|;<>()[]$空格,分别表示“或”并列关系,规则结束符,重复次数,表达式组合,可选内容,规则名标记和分隔符。
一般符号:除;=外的字符。
规则引用:“$”+“规则名”单独出现,该规则必须在别的地方进行定义。
特殊定义词:***表示集外词,...表示静音。
Root规则
每一个语法规则文档的第一个规则是Root规则。Root规则引用了各个子规则。
完整实例
以“Capability”Root规则为例,设计FSN规则如下:
$Capability=($1|$2|$3);
$1=([$honorific][你][能|能够|可以|会|擅长]$action1[吗|么|吧]);
$2=([$honorific][你]需要$action2[吗|么|吧]);
$3=([$honorific][你]((有[什么|哪些|几种]$ability)|([的]$ability[是什么|有哪些])));
$honorific=(请问|你好|喂|嗨|我想知道);
$action1=(说[英语|普通话])|([做][手工|什么])|(看见[我|外面])|实现|(讲[笑话|故事|什么])|(摆[头|手])|(背[诗|唐诗])|([预知|预测][未来|将来])|(说说[话])|(跳[高|远|舞蹈])|数数|(聊[天|会])|(举起[左|右|双]手)|打招呼|踢球|踢足球|打球|打篮球|奔跑|动作|唱歌|跳舞|挥手|聊天|说话|游泳|思考|骂人|吃饭|摇头|回答|坐下|动|射击|踢球|微笑|走路|跑步|听懂|弹琴|下棋|模仿|飞|做饭|打架|扫地|跑|写字|死机|转动;
$action2=睡觉|睡|吃|吃饭|喝水|喝|用电|电|上厕所|解手;
$ability=能力|功能|本事|事|智能|技能|能耐|本领|长项|特点|才能|水平|特长;
FSN规则解释器
一种应用程序,解释规则文件得到相关语句,组成FSN语料。
二、实际场景语料和FSN语料的平衡
1.选取实际场景语料和FSN语料中都包含的代表性词汇,作为关键词;
2.计算每个关键词在2种语料中的概率:
其中fn,CI是词Wn在语料CI在中出现的次数。N为关键词总数,1≤n≤N。
3.计算关键词在2个语料中出现概率的差值的绝对值dn
dn=|pn CT-pn CR|(2)
N为关键词总数,1≤n≤N。
4.计算关键词概率差值的均值dμ和方差ds
N为关键词总数,1≤n≤N。
设定:dn>dμ+αds的关键词Wn作为全异词。
5.从参考语料CR中提取包含全异词的短语:通过提取短语程序RetrievePhrase.exe从参考语料CR中提取包含全异词的短语,组成选择语料集CS。
6.计算复制倍数R。应用领域和语料类型不同,R的取值有所不同。以下步骤计算特定领域的2种特定语料混合情况下的最佳复制倍数。
设选择语料集CS词数为M,第m个词为Wm,则:
原始训练语料CT中需要补充Wm的次数为
deficitm=(pm CR-pm CT)×|CT|(5)
第m个关键词要求CS被复制的倍数为
Rm=deficitm/fm CS (6)
取选择语料实际复制倍数
R=max{Rm}1≤m≤M。(7)
将选择语料CS复制R次,添加到原始训练语料(FSN语料中),得到的语料即可用来训练语言模型。
本发明的实现可以分为以下几个步骤:
步骤1:通过演示对话系统实际应用收集整理得到实际场景语料。该语料以文本格式记录实际应用场景中出现的句子,将该语料分词后得到实际场景语料。
根据图2,首先要将安装有对话系统的语音交互机器人安装到实际应用场景(如科技馆中);然后在用户使用机器人的过程中记录下用户的问句;整理录音,得到用户问句的文本内容;最后将文本内容用分词工具分词,得到实际场景语料。
步骤2:统计实际场景语料中词频较高的词,组成限定领域词汇表。并通过增加同义词、增加反义词等方法扩展词汇表。以词汇表中词语为元素设计FSN句法规则,并用FSN规则解释器处理这些规则得到FSN语料。
根据图2,首先根据已有限定领域语料收集限定领域词汇;然后向词表中增加已有词语的同义词、反义词,以扩展词表,使语料覆盖更全面的词汇;根据词汇表设计FSN句法规则;最后用规则解释工具将FSN句法规则转换为FSN语料。
步骤3:用上述语料平衡方法,平衡实际场景语料和FSN语料,得到最终训练语料。使最终训练语料覆盖较多词汇、句法、规则的同时,其关键词概率与实际应用场景语料中关键词概率相近,保持训练语料与实际应用环境下对话的词汇相似性。
根据图2,首先统计两个语料中各词词频,获取两个语料中都包含的、词频高于一定阈值的关键词;然后分别计算关键词在两个语料中出现的概率;计算每个关键词在两个语料中出现的概率差值;计算所有关键词在两个语料中出现的概率差值的均值和方差;根据均值和方差,确定概率差阈值。概率差大于该阈值的关键词作为全异词。从实际场景语料中提取所有包含全异词的语料组成选择语料;计算选择语料最佳复制比例R;将选择语料复制R倍至FSN语料中,得到最终训练语料。
本发明的以上三个步骤所需计算机软硬件最低配置如下:
处理器:1GHz x86或x86-64处理器
内存:256MB
操作系统:Windows 2000
采用本发明提出的方法得到的实际场景语料和FSN语料的平衡语料,具有词汇全面、准确的特点。用该语料训练的语言模型,能使口语对话系统较好的识别限定领域的语句。
上面描述是用于实现本发明及其实施例,本领域普通技术人员可以根据实际情况确定多种实现方法,因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (5)
1、一种实际场景语料和有限状态网络(FSN)语料的平衡方法,其特征在于,包括:
1)整理实际应用场景下的录音,得到实际场景语料;
2)采用有限状态网络句法规则设计限定领域语料;
3)采用语料平衡方法,将部分实际场景语料按设定的倍数复制到有限状态网络语料中,得到最终训练语料。
2、根据权利要求1所述的方法,其特征在于,所述步骤1)包括:
分析实际引用场景下的录音,记录每句录音对应的文本语句,得到实际场景语料。
3、根据权利要求1所述的方法,其特征在于,所述步骤2)包括:
获取有限状态网络扩展所需的限定领域词汇;
对限定领域词汇进行词汇分类和词汇扩展;
根据扩展后的词汇表,设计有限状态网络句法规则;
用有限状态网络规则解释器生成有限状态网络语料。
4、根据权利要求1所述的方法,其特征在于,所述步骤3)包括:
选择实际场景语料和有限状态网络语料中都包含的关键词,
比较所述关键词在两个语料中出现的概率,找出概率差异较大的关键词,标记为全异词;
从实际场景语料中提取包含全异词的所有语料,通过概率统计方法,计算参考语料的复制倍数R;
将选择语料复制R倍到有限状态网络语料中,得到最终训练语料。
5、根据权利要求4所述的方法,其特征在于,所述计算复制倍数R包括:
设选择语料集CS词数为M,第m个词为Wm,这个词在实际场景语料CR和FSN语料CT中的概率分别为pm CR和pm CT,这个词在选择语料CS中出现的次数为fm CS,FSN语料中句子数为|CT|,则:
原始训练语料CT中需要补充W m的次数为
deficitm=(p m CR-p m CT)×|CT|
第m个关键词要求CS被复制的倍数为
Rm=deficitm/fm CS
取选择语料实际复制倍数为
R=max{Rm} 1≤m≤M。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101132924A CN101593518A (zh) | 2008-05-28 | 2008-05-28 | 实际场景语料和有限状态网络语料的平衡方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101132924A CN101593518A (zh) | 2008-05-28 | 2008-05-28 | 实际场景语料和有限状态网络语料的平衡方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101593518A true CN101593518A (zh) | 2009-12-02 |
Family
ID=41408134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101132924A Pending CN101593518A (zh) | 2008-05-28 | 2008-05-28 | 实际场景语料和有限状态网络语料的平衡方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101593518A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN103198828A (zh) * | 2013-04-03 | 2013-07-10 | 中金数据系统有限公司 | 语音语料库的构建方法和系统 |
CN104221012A (zh) * | 2012-03-13 | 2014-12-17 | 三菱电机株式会社 | 文档搜索装置和文档搜索方法 |
CN105229723A (zh) * | 2013-03-14 | 2016-01-06 | 谷歌公司 | 完整语言序列的语言建模 |
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN108364655A (zh) * | 2018-01-31 | 2018-08-03 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
WO2018205389A1 (zh) * | 2017-05-10 | 2018-11-15 | 平安科技(深圳)有限公司 | 语音识别方法、系统、电子装置及介质 |
CN108932470A (zh) * | 2017-05-22 | 2018-12-04 | 丰田自动车株式会社 | 图像处理系统、图像处理方法、信息处理装置和记录介质 |
CN109377985A (zh) * | 2018-11-27 | 2019-02-22 | 北京分音塔科技有限公司 | 一种领域词的语音识别增强方法和装置 |
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
CN110930993A (zh) * | 2018-09-20 | 2020-03-27 | 蔚来汽车有限公司 | 特定领域语言模型生成方法及语音数据标注系统 |
WO2020211350A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 语音语料训练方法、装置、计算机设备和存储介质 |
CN111816165A (zh) * | 2020-07-07 | 2020-10-23 | 北京声智科技有限公司 | 语音识别方法、装置及电子设备 |
CN113011177A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
-
2008
- 2008-05-28 CN CNA2008101132924A patent/CN101593518A/zh active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN104221012A (zh) * | 2012-03-13 | 2014-12-17 | 三菱电机株式会社 | 文档搜索装置和文档搜索方法 |
CN105229723A (zh) * | 2013-03-14 | 2016-01-06 | 谷歌公司 | 完整语言序列的语言建模 |
CN103198828A (zh) * | 2013-04-03 | 2013-07-10 | 中金数据系统有限公司 | 语音语料库的构建方法和系统 |
CN103198828B (zh) * | 2013-04-03 | 2015-09-23 | 中金数据系统有限公司 | 语音语料库的构建方法和系统 |
CN105845133A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 语音信号处理方法及装置 |
WO2017166631A1 (zh) * | 2016-03-30 | 2017-10-05 | 乐视控股(北京)有限公司 | 语音信号处理方法、装置和电子设备 |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
WO2018205389A1 (zh) * | 2017-05-10 | 2018-11-15 | 平安科技(深圳)有限公司 | 语音识别方法、系统、电子装置及介质 |
CN108932470A (zh) * | 2017-05-22 | 2018-12-04 | 丰田自动车株式会社 | 图像处理系统、图像处理方法、信息处理装置和记录介质 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107291690B (zh) * | 2017-05-26 | 2020-10-27 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN108021551B (zh) * | 2017-10-27 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN110111779B (zh) * | 2018-01-29 | 2023-12-26 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN110111779A (zh) * | 2018-01-29 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 语法模型生成方法及装置、语音识别方法及装置 |
CN108364655A (zh) * | 2018-01-31 | 2018-08-03 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN108364655B (zh) * | 2018-01-31 | 2021-03-09 | 网易乐得科技有限公司 | 语音处理方法、介质、装置和计算设备 |
CN110675863A (zh) * | 2018-07-03 | 2020-01-10 | 上海智臻智能网络科技股份有限公司 | 语音语料生成方法及装置、语音识别方法及装置 |
CN110930993A (zh) * | 2018-09-20 | 2020-03-27 | 蔚来汽车有限公司 | 特定领域语言模型生成方法及语音数据标注系统 |
CN110930993B (zh) * | 2018-09-20 | 2023-07-25 | 蔚来(安徽)控股有限公司 | 特定领域语言模型生成方法及语音数据标注系统 |
CN109377985A (zh) * | 2018-11-27 | 2019-02-22 | 北京分音塔科技有限公司 | 一种领域词的语音识别增强方法和装置 |
CN109377985B (zh) * | 2018-11-27 | 2022-03-18 | 北京分音塔科技有限公司 | 一种领域词的语音识别增强方法和装置 |
CN109920430A (zh) * | 2019-01-10 | 2019-06-21 | 上海言通网络科技有限公司 | 语音识别语义处理系统及其方法 |
WO2020211350A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 语音语料训练方法、装置、计算机设备和存储介质 |
CN111816165A (zh) * | 2020-07-07 | 2020-10-23 | 北京声智科技有限公司 | 语音识别方法、装置及电子设备 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113011177A (zh) * | 2021-03-15 | 2021-06-22 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
CN113011177B (zh) * | 2021-03-15 | 2023-09-29 | 北京百度网讯科技有限公司 | 模型训练和词向量确定方法、装置、设备、介质和产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593518A (zh) | 实际场景语料和有限状态网络语料的平衡方法 | |
TW472232B (en) | Probability-base fault-tolerance natural language understanding method | |
Rasooli et al. | Joint parsing and disfluency detection in linear time | |
Wu et al. | Spoken language understanding using weakly supervised learning | |
CN109815476B (zh) | 一种基于中文语素和拼音联合统计的词向量表示方法 | |
Wu et al. | Research on business English translation framework based on speech recognition and wireless communication | |
JP2013190985A (ja) | 知識応答システム、方法およびコンピュータプログラム | |
CN102184172A (zh) | 一种用于盲人读取汉字的系统和方法 | |
Seon et al. | A statistical prediction model of speakers’ intentions using multi-level features in a goal-oriented dialog system | |
Liu et al. | Paraphrastic language models | |
Haidar et al. | Unsupervised language model adaptation using LDA-based mixture models and latent semantic marginals | |
Mrva et al. | A PLSA-based language model for conversational telephone speech. | |
Masumura et al. | Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition | |
KR101250900B1 (ko) | 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법 | |
Chung et al. | Automatic induction of language model data for a spoken dialogue system | |
JP6586055B2 (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
Kathol et al. | Speech translation for low-resource languages: the case of Pashto. | |
KR100784730B1 (ko) | 태깅된 도메인 코퍼스 없이 새로운 도메인에 적용 가능한통계적 hmm 품사 태깅 장치 및 방법 | |
Haidar et al. | Novel weighting scheme for unsupervised language model adaptation using latent dirichlet allocation. | |
Manishina | Data-driven natural language generation using statistical machine translation and discriminative learning | |
Asahiah | Development of a Standard Yorùbá digital text automatic diacritic restoration system | |
CN108021712B (zh) | N-Gram模型的建立方法 | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech | |
Martins et al. | Dynamic vocabulary adaptation for a daily and real-time broadcast news transcription system | |
Henderson et al. | Data-driven methods for spoken language understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20091202 |