CN105981099A - 语音检索装置和语音检索方法 - Google Patents

语音检索装置和语音检索方法 Download PDF

Info

Publication number
CN105981099A
CN105981099A CN201480074908.5A CN201480074908A CN105981099A CN 105981099 A CN105981099 A CN 105981099A CN 201480074908 A CN201480074908 A CN 201480074908A CN 105981099 A CN105981099 A CN 105981099A
Authority
CN
China
Prior art keywords
text strings
retrieval
language
identification
likelihood score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480074908.5A
Other languages
English (en)
Inventor
花泽利行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN105981099A publication Critical patent/CN105981099A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

具有:识别部(2),其参照声学模型和学习数据不同的多个语言模型来进行输入语音的语音识别,针对多个语言模型取得识别文字串;文字串对照部(6),其对照多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典存储部(7)所存储的文字串词典中的检索对象词汇的文字串,计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数,针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部(8),其参照所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。

Description

语音检索装置和语音检索方法
技术领域
本发明涉及针对根据被赋予了语言似然度的多个语言模型得到的识别结果在文字串上与检索对象词汇进行对照处理来取得检索结果的语音检索装置和语音检索方法。
背景技术
以往,作为被赋予了语言似然度的语言模型,几乎都是使用根据后述的学习数据的统计量来计算语言似然度的统计语言模型。在使用统计语言模型的语音识别中,在以对各种词汇和表达方式的发声进行识别为目的的情况下,需要将各种文章用作语言模型的学习数据来构建统计语言模型。但是,如果利用大范围的学习数据来构建单一的统计语言模型,则存在不一定成为最适于识别某一特定话题、例如天气话题的发声的统计语言模型的问题。
作为解决该问题的方法,在非专利文献1中,公开了这样一种技术:将语言模型的学习数据分类成几个话题,使用按照各个话题分类的学习数据来学习统计语言模型,在识别时,使用所有的各个统计语言模型进行识别对照,将识别分数最高的候选作为识别结果。根据该技术,报告了下述情况:在特定话题的发声中,基于所对应的话题的语言模型的识别候选的识别分数变高,识别精度比使用单一的统计语言模型的情况提高。
现有技术文献
非专利文献
非专利文献1:中岛及其他人,“大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法”,情報処理学会論文誌,2004年,Vol.45,No.12
发明内容
发明要解决的课题
可是,在上述的非专利文献1中公开的技术中,存在下述这样的课题:由于使用学习数据不同的多个统计语言模型进行识别处理,因此,无法在学习数据不同的统计语言模型彼此之间严格地对识别分数的计算中所使用的语言似然度进行比较。这是因为,如果统计语言模型例如为单词的三元(trigram)模型,则语言似然度是根据针对识别候选的单词串的三元概率来计算的,但在学习数据不同的语言模型中,即使针对同一单词串,三元概率也会成为不同的值。
本发明是为了解决上述那样的课题而完成的,其目的在于在使用学习数据不同的多个统计语言模型进行识别处理的情况下也取得可比较的识别分数并提高检索精度。
用于解决问题的手段
本发明的语音检索装置具有:识别部,其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照多个语言模型的各个语言模型取得识别文字串;文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;文字串对照部,其对照识别部所取得的多个语言模型的各个语言模型的识别文字串与蓄积在文字串词典中的检索对象词汇的文字串,计算表示识别文字串相对于检索对象词汇的文字串的一致度的文字串对照分数,针对识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及检索结果确定部,其参照文字串对照部所取得的文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
发明的效果
根据本发明,在使用学习数据不同的多个语言模型进行了输入语音的识别处理的情况下,也能够得到对于各个语言模型能够互相进行比较的识别分数,能够提高语音检索的检索精度。
附图说明
图1是示出实施方式1的语音检索装置的结构的框图。
图2是示出实施方式1的语音检索装置的文字串词典的生成方法的图。
图3是示出实施方式1的语音检索装置的动作的流程图。
图4是示出实施方式2的语音检索装置的结构的框图。
图5是示出实施方式2的语音检索装置的动作的流程图。
图6是示出实施方式3的语音检索装置的结构的框图。
图7是示出实施方式3的语音检索装置的动作的流程图。
图8是示出实施方式4的语音检索装置的结构的框图。
图9是示出实施方式4的语音检索装置的动作的流程图。
具体实施方式
以下,为了更加详细地说明本发明,根据附图对用于实施本发明的方式进行说明。
实施方式1.
图1是示出本发明的实施方式1的语音检索装置的结构的框图。
语音检索装置100由声学分析部1、识别部2、第1语言模型存储部3、第2语言模型存储部4、声学模型存储部5、文字串对照部6、文字串词典存储部7和检索结果确定部8构成。
声学分析部1进行输入语音的声学分析,转换为特征向量的时间序列。特征向量例如是MFCC(Mel Frequency Cepstral Coefficient:梅尔频率倒谱系数)的1~N维的数据。N的值例如是16。
识别部2使用存储于第1语言模型存储部3的第1语言模型和存储于第2语言模型存储部4的第2语言模型以及存储于声学模型存储部5的声学模型进行识别对照,由此,取得最接近输入语音的文字串。更详细地说,识别部2例如使用维特比算法对声学分析部1转换的特征向量的时间序列进行识别对照,取得相对于各个语言模型识别分数最高的识别结果,输出作为识别结果的文字串。
另外,在本实施方式1中,以将文字串设定为表示识别结果的发音的音节串的情况为例进行说明。此外,假设识别分数是根据使用声学模型通过维特比算法而计算出的声学似然度与使用语言模型计算出的语言似然度的加权和计算出的。
如上所述,虽然识别部2还计算识别分数,该识别分数是使用声学模型针对各个文字串计算出的声学似然度与使用语言模型计算出的语言似然度的加权和,但即使基于各个语言模型的识别结果的文字串相同,识别分数也会成为不同的值。这是由下述情况导致的:在相同的识别结果的文字串的情况下,虽然声学似然度在两个语言模型中是相同的,但语言似然度在各个语言模型中取不同的值。因此,基于各个语言模型的识别结果的识别分数不是能够严格地进行比较的值。因此,在本实施方式1中,其特征在于,在后述的文字串对照部6中计算能够在两个语言模型之间进行比较的分数,检索结果确定部8确定最终的检索结果。
第1语言模型存储部3和第2语言模型存储部4对作为检索对象的名称进行词素解析,将名称分解为单词的串,存储作为单词串的统计语言模型而生成的语言模型。另外,在进行语音检索之前预先生成第1语言模型和第2语言模型。
举出具体例进行说明,在检索对象例如是称作“那智の滝”的设施的名称的情况下,分解为“那智”、“の”和“滝”这3个单词的串,生成统计语言模型。另外,虽然在本实施方式1中设定为单词的三元模型,但也可以使用二元词(bigram)或单字(unigram)等任意的语言模型来构成。通过将设施名称分解为各个单词的串,在发声为“那智滝”等未以正确的设施名称进行的情况下,也能够进行语音识别。
声学模型存储部5存储有将语音的特征向量模型化而成的声学模型。作为声学模型,例如可以列举出HMM(Hidden Markov Model:隐马尔可夫模型)等。文字串对照部6参照存储于文字串词典存储部7的文字串词典,对从识别部2输出的识别结果的文字串进行对照处理。对照处理由识别结果的文字串的开头的音节开始依次参照文字串词典的倒置文件来进行,在包含该语音的设施的文字串对照分数上加“1”。进行该处理直至识别结果的文字串的最终音节为止。针对识别结果的各个文字串,将文字串对照分数最高的名称与文字串对照分数一起输出。
文字串词典存储部7存储有由以音节作为索引词的倒置文件构成的文字串词典。倒置文件例如由赋予了ID编号的设施名称的音节串生成。在进行语音检索之前预先生成文字串词典。
在此,参照图2对倒置文件的生成方法具体进行说明。
图2(a)用“ID编号”、“假名汉字标记”、“音节标记”和“语言模型”示出设施名称。图2(b)示出了根据图2(a)所示的设施名称的信息生成的文字串词典的一例。在图2(b)中,作为“索引词”的各个音节与包含该音节的名称的ID编号相关联。在图2所示的示例的情况下,预先使用检索对象和所有的设施名称生成倒置文件。
检索结果确定部8参照由文字串对照部6输出的文字串对照分数,按照文字串对照分数从高到低的顺序对识别结果的文字串进行排序,从文字串对照分数的高位开始依次将1个以上的文字串作为检索结果输出。
接下来,参照图3对语音检索装置100的动作进行说明。图3是示出本发明的实施方式1的语音检索装置的动作的流程图。
生成第1语言模型、第2语言模型和文字串词典,分别存储于第1语言模型存储部3、第2语言模型存储部4和文字串词典存储部7(步骤ST1)。接下来,在进行了语音输入(步骤ST2)时,声学分析部1进行输入语音的声学分析,转换为特征向量的时间序列(步骤ST3)。
识别部2针对在步骤ST3中转换的特征向量的时间序列,使用第1语言模型、第2语言模型和声学模型进行识别对照,计算识别分数(步骤ST4)。进而,识别部2参照在步骤ST4中计算出的识别分数,取得相对于第1语言模型识别分数最高的识别结果、以及相对于第2语言模型识别分数最高的识别结果(步骤ST5)。另外,假设在步骤ST5中所取得的识别结果为文字串。
文字串对照部6针对在步骤ST5中所取得的识别结果的文字串,参照文字串词典存储部7中所存储的文字串词典进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出(步骤ST6)。接下来,检索结果确定部8使用在步骤ST6中输出的文字串和文字串对照分数,按照文字串对照分数从高到低的顺序对文字串进行排序,确定并输出检索结果(步骤ST7),结束处理。
接下来,例举具体例对图3中所示的流程图更加详细地进行说明。以下,以如下这样的情况为例进行说明:将日本全国的设施和观光景点的名称(以下,称作设施)看作由若干个单词组成的文本文档,以设施名称为检索对象。不是通过通常的单词语音识别来实施设施名称检索,而是通过文本检索的体制(scheme)实施设施名称检索,由此,在用户未正确地记忆检索对象的设施名称的情况下,也能够利用文本的部分一致来检索设施名称。
首先,在步骤ST1中,生成以作为第1语言模型的全国的设施名称为学习数据的语言模型,生成以作为第2语言模型的神奈川县的设施名称为学习数据的语言模型。上述的语言模型是这样的语言模型:虽然多数情况是该语音检索装置100的用户位于神奈川县并检索神奈川县内的设施,但假设有时还检索其它地域的设施。此外,生成图2(b)所示的词典作为文字串词典,由文字串词典存储部7存储。
在此,在本例中,对输入语音的发声内容是“碁鎖家具(ごくさりかぐ)”且该设施在神奈川县内只有一户、是稀有的名称的情况进行说明。在步骤ST2的语音输入的发声内容例如是“碁鎖家具(ごくさりかぐ)”的情况下,在步骤ST3中,对“碁鎖家具(ごくさりかぐ)”进行声学分析,在步骤ST4中,进行识别对照。进而,在步骤ST5中,取得以下的识别结果。
假设针对第1语言模型的识别结果是文字串“ko,ku,sa,i,ka,gu”。其中,文字串中的“,”是表示音节分隔的符号。这是因为,如前文所述,第1语言模型是以全国的设施名称为学习数据而生成的统计语言模型,因此,根据三元概率计算出的语言似然度变低,所以,学习数据中的相对出现频率较低的词汇存在不易识别的倾向。假设为,其结果是,使用第1语言模型的识别结果误识别为“国際家具(こくさいかぐ)”。
另一方面,假设针对第2语言模型的识别结果是文字串“go,ku,sa,ri,ka,gu”。这是因为,如前文所述,第2语言模型是以神奈川县的设施名称为学习数据而生成的统计语言模型,因此,第2语言模型的学习数据的总数远远少于第1语言模型的学习数据的总数,“碁鎖家具”相对于第2语言模型中的学习数据整体的相对出现频率大于第1语言模型中的出现频率,语言似然度变高。
这样,在步骤ST5中,识别部2取得基于第1语言模型的识别结果的文字串Txt(1)=“ko,ku,sa,i,ka,gu”以及基于第2语言模型的识别结果的文字串Txt(2)=“go,ku,sa,ri,ka,gu”。
接下来,在步骤ST6中,文字串对照部6针对使用第1语言模型的识别结果的文字串“ko,ku,sa,i,ka,gu”以及使用第2语言模型的识别结果的文字串“go,ku,sa,ri,ka,gu”,使用文字串词典进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出。
具体说明针对上述文字串的对照处理,构成使用第1语言模型的识别结果的文字串“ko,ku,sa,i,ka,gu”的6个音节中的ko,ku,ka,gu这4个音节包含在“国産家具センター”的音节串“ko,ku,saN,ka,gu,seN,taa”中,因此,文字串对照分数为“4”,成为最高的文字串对照分数。另一方面,构成使用第2语言模型的识别结果的文字串的“go,ku,sa,ri,ka,gu”的6个音节全部包含在“碁鎖家具店”的音节串“go,ku,sa,ri,ka,gu,teN”中,因此,文字串对照分数为“6”,成为最高的文字串对照分数。
根据该结果,文字串对照部6输出文字串“国産家具センター”和文字串对照分数S(1)=4作为与第1语言模型对应的对照结果,输出文字串“碁鎖家具店”和文字串对照分数S(2)=6作为与第2语言模型对应的对照结果。
在此,S(1)是针对基于第1语言模型的文字串Txt(1)的文字串对照分数,S(2)是针对基于第2语言模型的文字串Txt(2)的文字串对照分数。针对输入到文字串对照部6的文字串Txt(1)和文字串Txt(2),以相同的基准计算文字串对照分数,因此,能够根据所计算出的文字串对照分数比较检索结果的似然度。
接下来,在步骤ST7中,检索结果确定部8使用所输入的文字串“国産家具センター”和文字串对照分数S(1)=4、以及文字串“碁鎖家具店”和文字串对照分数S(2)=6,按照文字串对照分数从高到低的顺序对文字串进行排序,输出第1位是“碁鎖家具店”、第2位是“国産家具センター”的检索结果。这样,即使是出现频率低的设施名称,也能够进行检索。
接下来,以输入语音的发声内容是神奈川县外的设施的情况为例进行说明
在步骤ST2的语音输入的发声内容例如是“那智の滝”的情况下,在步骤ST3中,对“那智の滝”进行声学分析,在步骤ST4中,进行识别对照。进而,在步骤ST5中,识别部2取得识别结果的文字串Txt(1)和文字串Txt(2)。在此,文字串与上述相同,是表示识别结果的发声的音节串。
具体地说明在步骤ST5中取得的识别结果。针对第1语言模型的识别结果为文字串“na,ci,no,ta,ki”。其中,文字串中的“,”是表示音节的分隔的符号。这是因为,如前文所述,第1语言模型是以全国的设施名称为学习数据而生成的统计语言模型,因此,“那智”和“滝”较多地存在于学习数据中,步骤ST2的发声内容被正确地识别,识别结果为“那智の滝”。
另一方面,针对第2语言模型的识别结果为文字串“ma,ci,no,e,ki”。这是因为,如前文所述,第2语言模型是以神奈川县的设施名称为学习数据而生成的统计语言模型,因此,识别词汇中不存在“那智”,识别结果成为“町の駅”。这样,在步骤ST5中,取得基于第1语言模型的识别结果的文字串Txt(1)=“na,ci,no,ta,ki”以及基于第2语言模型的识别结果的文字串Txt(2)=“ma,ci,no,e,ki”。
接下来,作为步骤ST6,文字串对照部6针对使用第1语言模型的识别结果的文字串“na,ci,no,ta,ki”以及使用第2语言模型的识别结果的文字串“ma,ci,no,e,ki”进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出。
具体地说明针对上述文字串的对照处理,构成使用第1语言模型的识别结果的文字串“na,ci,no,ta,ki”的5个音节中的所有音节包含在“那智の滝”的音节串“na,ci,no,ta,ki”中,因此,文字串对照分数为“5”,成为最高的文字串对照分数。另一方面,构成使用第2语言模型的识别结果的文字串“ma,ci,no,e,ki”的6个音节中的ma,ci,e,ki这4个音节包含在“町場駅”的音节串“ma,ci,ba,e,ki”中,因此,文字串对照分数为“4”,成为最高的文字串对照分数。
根据该结果,文字串对照部6输出文字串“那智の滝”和文字串对照分数S(1)=5作为与第1语言模型对应的对照结果,输出文字串“町場駅”和文字串对照分数S(2)=4作为与第2语言模型对应的对照结果。
接下来,在步骤ST7中,检索结果确定部8使用所输入的文字串“那智の滝”和文字串对照分数S(1)=5、以及文字串“町場駅”和文字串对照分数S(2)=4,按照文字串对照分数从高到低的顺序对文字串进行排序,输出第1位是“那智の滝”、第2位是“町場駅”的检索结果。这样,对于第2语言模型内不存在的设施名称也能够高精度地进行检索。
如上所述,根据本实施方式1,构成为具有:识别部2,其取得作为与第1语言模型以及第2语言模型分别对应的识别结果的文字串;文字串对照部6,其参照文字串词典计算识别部2所取得的文字串的文字串对照分数;以及检索结果确定部8,其根据文字串对照分数进行文字串的排序而确定检索结果,因此,在使用学习数据不同的多个的语言模型进行识别处理的情况下也能够得到可比较的文字串对照分数,能够提高检索精度。
另外,在上述实施方式1中,示出了使用2个语言模型的示例,但是也可以使用3个以上的语言模型。例如,还可以构成为,除上述的第1语言模型和第2语言模型外,例如生成并使用以东京都的设施名称为学习数据的第3语言模型。
另外,在上述实施方式1中,示出了文字串对照部6采用使用倒置文件的对照方式的结构,但是也可以构成为将文字串作为输入来计算对照分数的任意方式。例如,可以将文字串的DP匹配作为对照方式来使用。
另外,在上述实施方式1中,示出了对第1语言模型存储部3和第2语言模型存储部4分配1个识别部2的结构,但也可以构成为对各个语言模型分别分配不同的识别部。
实施方式2.
图4是示出本发明的实施方式2的语音检索装置的结构的框图。
在实施方式2的语音检索装置100a中,识别部2a除了向检索结果确定部8a输出作为识别结果的文字串外,还向检索结果确定部8a输出该文字串的声学似然度和语言似然度。除了使用文字串对照分数外,检索结果确定部8a还使用声学似然度和语言似然度来确定检索结果。
以下,对与根据实施方式1的语音检索装置100的构成要素相同或相应的部分,标记与图1中所使用的标号相同的标号,并省略或简化说明。
识别部2a与实施方式1相同地进行识别对照处理,取得相对于各个语言模型识别分数最高的识别结果,向文字串对照部6输出作为识别结果的文字串。在此,与实施方式1相同,文字串是表示识别结果的发音的音节串。
此外,识别部2a向检索结果确定部8a输出与在针对第1语言模型的识别对照处理的过程中计算出的识别结果的文字串相应的声学似然度和语言似然度、以及与在针对第2语言模型的识别对照处理的过程中计算出的识别结果的文字串相应的声学似然度和语言似然度。
检索结果确定部8a对在实施方式1中所示的文字串对照分数、与从识别部2a输出的文字串相应的语言似然度以及声学似然度这3个值中的至少2个以上的值进行加权求和,从而计算综合分数。按照所计算出的综合分数从高到低的顺序对识别结果的文字串进行排序,从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。
更详细地进行说明,检索结果确定部8a将从文字串对照部6输出的针对第1语言模型的文字串对照分数S(1)和针对第2语言模型的文字串对照分数S(2)、针对第1语言模型的识别结果的声学似然度Sa(1)和语言似然度Sg(1)以及针对第2语言模型的识别结果的声学似然度Sa(2)和语言似然度Sg(2)作为输入,使用以下所示的式(1)计算综合分数ST(i)。
ST(i)=S(i)+wa*Sa(i)+wg*Sg(i)···(1)
在式(1)中,在本实施方式2的示例中,i=1或2,ST(1)是与第1语言模型对应的检索结果的综合分数,ST(2)是与第2语言模型对应的检索结果的综合分数。wa和wg是预先确定的0以上的常数。此外,虽然wa或wg的任意一方也可以是0,但是,将wa和wg都设定成不是0的值。这样,根据式(1)计算综合分数ST(i),进而,按照综合分数从高到低的顺序对识别结果的文字串进行排序,从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。
接下来,参照图5对实施方式2的语音检索装置100a的动作进行说明。图5是示出本发明的实施方式2的语音检索装置的动作的流程图。另外,对与实施方式1的语音检索装置相同的步骤,标记与图3中所使用的标号相同的标号,省略或简化说明。
与实施方式1相同地进行从步骤ST1至步骤ST4的处理,识别部2a取得作为识别结果最高的识别结果的文字串,并且取得在步骤ST4的识别对照的过程中计算出的针对第1语言模型的文字串的声学似然度Sa(1)和语言似然度Sg(1)、针对第2语言模型的文字串的声学似然度Sa(2)和语言似然度Sg(2)(步骤ST11)。在步骤ST11中取得的文字串被输出至文字串对照部6,声学似然度Sa(i)和语言似然度Sg(i)被输出至检索结果确定部8a。
文字串对照部6针对在步骤ST11中所取得的识别结果的文字串进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出(步骤ST6)。接下来,检索结果确定部8a使用在步骤ST11中取得的针对第1语言模型的声学似然度Sa(1)和语言似然度Sg(1)以及针对第2语言模型的声学似然度Sa(2)和语言似然度Sg(2)计算综合分数ST(i)(步骤ST12)。进而,检索结果确定部8a使用在步骤ST6中输出的文字串和在步骤ST12中计算出的综合分数ST(i)(ST(1)、ST(2)),按照综合分数ST(i)从高到低的顺序对文字串进行排序,确定并输出检索结果(步骤ST13),结束处理。
如上所述,根据本实施方式2,构成为具有:识别部2a,其取得作为识别结果最高的识别结果的文字串,并且取得针对各个语言模型的文字串的声学似然度Sa(i)和语言似然度Sg(i);和检索结果确定部8a,其使用考虑了所取得的声学似然度Sa(i)和语言似然度Sg(i)的值而计算出的综合分数ST(i)确定检索结果,因此,能够反映出语音识别结果的似然度,能够提高检索精度。
实施方式3.
图6是示出本发明的实施方式3的语音检索装置的结构的框图。
实施方式3的语音检索装置100b与实施方式2中所示的语音检索装置100a相比较,仅具有第2语言模型存储部4,不具有第1语言模型存储部3。因此,使用外部识别装置200来进行使用第1语言模型的识别处理。
以下,对与实施方式2的语音检索装置100a的构成要素相同或相应的部分,标记与图4中所使用的标号相同的标号,省略或简化说明。
外部识别装置200例如能够由具有较高计算能力的服务器等构成,通过使用存储于第1语言模型存储部201的第1语言模型和存储于声学模型存储部202的声学模型进行识别对照,取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100b的文字串对照部6a,将该文字串的声学似然度和语言似然度输出至语音检索装置100b的检索结果确定部8b。
第1语言模型存储部201和声学模型存储部202例如存储有与在实施方式1和实施方式2中所示的第1语言模型存储部3以及声学模型存储部5相同的语言模型和声学模型。
识别部2a通过使用存储于第2语言模型存储部4的第2语言模型和存储于声学模型存储部5的声学模型进行识别对照,取得最接近由声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100b的文字串对照部6a,将声学似然度和语言似然度输出至语音检索装置100b的检索结果确定部8b。
文字串对照部6a参照存储于文字串词典存储部7的文字串词典对从识别部2a输出的识别结果的文字串和从外部识别装置200输出的识别结果的文字串进行对照处理。针对识别结果的各个文字串,将文字串对照分数最高的名称与文字串对照分数一起输出至检索结果确定部8b。
检索结果确定部8b将从文字串对照部6a输出的文字串对照分数、从识别部2a和外部识别装置200输出的针对文字串的声学似然度Sa(i)和语言似然度Sg(i)这3个值中的至少2个以上的值进行加权求和,计算综合分数ST(i)。按照所计算出的综合分数从高到低的顺序对识别结果的文字串进行排序,从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。
接下来,参照图7对实施方式3的语音检索装置100b的动作进行说明。图7是示出本发明的实施方式3的语音检索装置和外部识别装置的动作的流程图。另外,对与实施方式2的语音检索装置相同的步骤,标记与图5中所使用的标号相同的标号,并省略或简化说明。
声学检索装置100b生成第2语言模型和文字串词典,存储于第2语言模型存储部4和文字串词典存储部7中(步骤ST21)。假设外部识别装置200所参照的第1语言模型是预先生成的。接下来,向声学检索装置100b进行语音输入(步骤ST2),声学分析部1进行输入语音的声学分析,转换为特征向量的时间序列(步骤ST3)。转换的特征向量的时间序列被输出至识别部2a和外部识别装置200。
识别部2a针对在步骤ST3中转换的特征向量的时间序列,使用第2语言模型和声学模型进行识别对照,计算识别分数(步骤ST22)。识别部2a参照在步骤ST22中计算的识别分数,取得作为相对于第2语言模型识别分数最高的识别结果的文字串,并且取得在步骤ST22的识别对照的过程中计算出的针对第2语言模型的文字串的声学似然度Sa(2)和语言似然度Sg(2)(步骤ST23)。另外,在步骤ST23中取得的文字串被输出至文字串对照部6a,声学似然度Sa(2)和语言似然度Sg(2)被输出至检索结果确定部8b。
与步骤ST22以及步骤ST23的处理并列地,外部识别装置200针对在步骤ST3中转换的特征向量的时间序列,使用第1语言模型和声学模型进行识别对照,计算识别分数(步骤ST31)。外部识别装置200参照在步骤ST31中计算出的识别分数,取得作为相对于第1语言模型识别分数最高的识别结果的文字串,并且取得在步骤ST31的识别对照的过程中计算出的针对第1语言模型的文字串的声学似然度Sa(1)和语言似然度Sg(1)(步骤ST32)。另外,在步骤ST32中取得的文字串被输出至文字串对照部6a,声学似然度Sa(1)和语言似然度Sg(1)被输出至检索结果确定部8b。
文字串对照部6a针对在步骤ST23中所取得的文字串和在步骤ST32中所取得的文字串进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出至检索结果确定部8b(步骤ST25)。检索结果确定部8b使用在步骤ST23中取得的针对第2语言模型的声学似然度Sa(2)和语言似然度Sg(2)以及在步骤ST32中取得的针对第1语言模型的声学似然度Sa(1)和语言似然度Sg(1)计算综合分数ST(i)(ST(1)、ST(2)(步骤ST26)。进而,检索结果确定部8b使用在步骤ST25中输出的文字串和在步骤ST26中计算出的综合分数ST(i),按照综合分数ST(i)从高到低的顺序对文字串进行排序,确定并输出检索结果(步骤ST13),结束处理。
如上所述,根据本实施方式3,构成为,外部识别装置200进行针对一部分的语言模型的识别处理,因此,通过将外部识别装置设置在例如计算能力较高的服务器等中,能够使得语音检索装置100高速地执行识别处理。
另外,在上述的实施方式中,示出了使用2个语言模型、外部识别装置200针对1个语言模型的文字串进行识别处理的示例,但也可以使用3个以上的语言模型,只要构成为外部识别装置针对至少1个以上的语言模型的文字串执行识别处理即可。
实施方式4.
图8是示出本发明的实施方式4的语音检索装置的结构的框图。
实施方式4的语音检索装置100c与实施方式3中所示的语音检索装置100b相比,追加设置有声学似然度计算部9以及存储有与上述的声学模型不同的新声学模型的高精度声学模型存储部10。
以下,对与实施方式3的语音检索装置100b的构成要素相同或相应的部分,标记与图6中所使用的标号相同的标号,并省略或简化说明。
识别部2b通过使用存储于第2语言模型存储部4的第2语言模型和存储于声学模型存储部5的声学模型进行识别对照,取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100c的文字串对照部6a,将语言似然度输出至语音检索装置100c的检索结果确定部8c。
外部识别装置200a通过使用存储于第1语言模型存储部201的第1语言模型和存储于声学模型存储部202的声学模型进行识别对照,取得最接近从声学分析部1输入的特征向量的时间序列的文字串。将所取得的作为识别分数最高的识别结果的文字串输出至语音检索装置100c的文字串对照部6a,将该文字串的语言似然度输出至语音检索装置100c的检索结果确定部8c。
声学似然度计算部9根据从声学分析部1输入的特征向量的时间序列、从识别部2b输入的识别结果的文字串和从外部识别装置200a输入的识别结果的文字串,使用存储于高精度声学模型存储部10中的高精度声学模型,例如利用维特比算法进行声学模式对照,计算针对从识别部2b输出的识别结果的文字串和从外部识别装置200a输出的识别结果的文字串的对照声学似然度。所计算出的对照声学似然度被输出至检索结果确定部8c。
高精度声学模型存储部10存储比实施方式1至实施方式3中所示的声学模型存储部5所存储的声学模型更精密且识别精度更高的声学模型。例如,在存储对单音或双音音素进行模型化而得到的声学模型作为声学模型存储部5存储的声学模型的情况下,高精度声学模型存储部10存储对考虑到前后的音素的差异的三音节音素进行模型化而得到的声学模型。已知在三音节的情况下,由于“朝(/asa/)”的第2个音素“/s/”与“石(/isi/)”的第2个音素“/s/”的前后的音素不同,因此,要用不同的声学模型进行模型化,由此提高了识别精度。
但是,由于声学模型的种类增加,因此,声学似然度计算部9参照高精度声学模型存储部10来对照声学模式时的运算量增加。但是,由于声学似然度计算部9中的对照对象限定于从识别部2b输入的识别结果的文字串和从外部识别装置200a输出的识别结果的文字串中包含的词汇,因此,能够抑制处理量增加。
检索结果确定部8c对从文字串对照部6a输出的文字串对照分数、针对从识别部2b和外部识别装置200a输出的2个文字串的语言似然度Sg(i)和针对从声学似然度计算部9输出的2个文字串的对照声学似然度Sa(i)中的至少2个以上的值进行加权和,计算综合分数ST(i)。按照所计算出的综合分数ST(i)从高到低的顺序对识别结果的文字串进行排序,从综合分数的高位开始依次将1个以上的文字串作为检索结果而输出。
接下来,参照图9对实施方式4的语音检索装置100c的动作进行说明。图9是示出本发明的实施方式4的语音检索装置和外部识别装置的动作的流程图。另外,对与实施方式3的语音检索装置相同的步骤,标记与图7中所使用的标号相同的标号,并省略或简化说明。
与实施方式3相同地,在进行了步骤ST21、步骤ST2和步骤ST3的处理时,在步骤ST3中转换的特征向量的时间序列除了被输出至识别部2b和外部识别装置200a,还被输出至声学似然度计算部9。
识别部2b进行步骤ST22和步骤ST23的处理,将在步骤ST23中取得的文字串输出至文字串对照部6a,将语言似然度Sg(2)输出至检索结果确定部8c。另一方面,外部识别装置200a进行步骤ST31和步骤ST32的处理,将在步骤ST32中取得的文字串输出至文字串对照部6a,将语言似然度Sg(1)输出至检索结果确定部8c。
声学似然度计算部9根据在步骤ST3中转换的特征向量的时间序列、在步骤ST23中取得的文字串和在步骤ST32中取得的文字串,使用高精度声学模型存储部10所存储的高精度声学模型进行声学模式对照,计算对照声学似然度Sa(i)(步骤ST43)。接下来,文字串对照部6a针对在步骤ST23中所取得的文字串和在步骤ST32中所取得的文字串进行对照处理,将文字串对照分数最高的文字串与文字串对照分数一起输出至检索结果确定部8c(步骤ST25)。
检索结果确定部8c使用在步骤ST23中计算出的针对第2语言模型的语言似然度Sg(2)、在步骤ST32中计算出的针对第1语言模型的语言似然度Sg(1)以及在步骤ST43中计算出的对照声学似然度Sa(i)来计算综合分数ST(i)(步骤ST44)。进而,检索结果确定部8c使用在步骤ST25中输出的文字串和在步骤ST41中计算出的综合分数ST(i),按照综合分数ST(i)从高到低的顺序对文字串进行排序,作为检索结果而输出(步骤ST13),结束处理。
如上所述,根据本实施方式4,构成为具有声学似然度计算部9,其使用识别精度比识别部2b所参照的声学模型高的声学模型来计算对照声学似然度Sa(i),因此,能够更加正确地进行检索结果确定部8b中的声学似然度的比较,能够提高检索精度。
另外,在上述的实施方式4中,虽然示出了识别部2b所参照的声学模型存储部5所存储的声学模型与外部识别装置200a所参照的声学模型存储部202所存储的声学模型相同的情况,但也可以构成为参照各不相同的声学模型。这是因为,即使识别部2b所参照的声学模型与外部识别装置200a所参照的声学模型不同,在声学似然度计算部9中也再次计算对照声学似然度,因此,能够严格地对针对识别部2b的识别结果的文字串的声学似然度与针对外部识别装置200a的识别结果的文字串的声学似然度进行比较。
此外,在上述的实施方式4中,虽然示出了使用外部识别装置200a的结构,但语音检索装置100c内的识别部2b也可以参照第1语言模型存储部来进行识别处理,也可以构成为,在语音检索装置100c内设置新的识别单元,由该识别单元参照第1语言模型存储部来进行识别处理。
另外,在上述的实施方式4中,虽然示出了使用外部识别装置200a的结构,但还可以应用于不使用外部识别装置而是在语音检索装置内进行所有的识别处理的结构。
另外,在上述的实施方式2至实施方式4中,示出了使用2个语言模型的示例,但是也可以使用3个以上的语言模型。
此外,在上述的实施方式1至实施方式4中,也可以构成为,将多个语言模型分成2个以上的组,并针对2个以上组分别分配识别部2、2a、2b的识别处理。这意味着,将识别处理分配到多个语音识别引擎(识别部)来并列地进行识别处理。由此,能够高速地进行识别处理。此外,如实施方式4的图8中所示,可以使用具有强大的CPU能力的外部识别装置。
并且,本申请发明能够在其发明的范围内对各实施方式进行自由的组合、或进行各实施方式的任意的结构要素的变形、或在各实施方式中进行任意的结构要素的省略。
产业上的可利用性
如上所述,本发明的语音检索装置和语音检索方法能够应用于具有语音识别功能的各种设备,在进行了出现频率低的文字串的输入的情况下,也能够提供高精度且最佳的语音识别结果。
标号说明
1:声学分析部;2、2a、2b:识别部;3:第1语言模型存储部;4:第2语言模型存储部;5:声学模型存储部;6、6a:文字串对照部;7:文字串词典存储部;8、8a、8b、8c:检索结果确定部;9:声学似然度计算部;10:高精度声学模型存储部;100、100a、100b、100c:语音检索装置;200:外部识别装置;201:第1语言模型存储部;202:声学模型存储部。

Claims (8)

1.一种语音检索装置,其中,所述语音检索装置具有:
识别部,其参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照所述多个语言模型中的每个语言模型取得识别文字串;
文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;
文字串对照部,其对所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照,计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数,针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及
检索结果确定部,其参照所述文字串对照部所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
2.根据权利要求1所述的语音检索装置,其特征在于,
所述识别部取得所述识别文字串的声学似然度和语言似然度,
所述检索结果确定部计算综合分数,按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出,其中,所述综合分数是所述文字串对照部所取得的文字串对照分数、所述识别部所取得的声学似然度、语言似然度中的2个以上的值的加权和。
3.根据权利要求1所述的语音检索装置,其特征在于,
所述语音检索装置具有声学似然度计算部,该声学似然度计算部参照识别精度比所述识别部所参照的所述声学模型高的高精度声学模型,进行所述识别部所取得的所述多个语言模型中的每个语言模型的识别文字串与所述输入语音之间的声学模式对照,计算对照声学似然度,
所述识别部取得所述识别文字串的语言似然度,
所述检索结果确定部计算综合分数作为所述文字串对照部所取得的文字串对照分数、所述声学似然度计算部所计算出的对照声学似然度、所述识别部所取得的语言似然度中的2个以上的值的加权和,按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
4.根据权利要求1所述的语音检索装置,其特征在于,
所述语音检索装置将所述多个语言模型分成2个以上的组,对所述2个以上组分别分配所述识别部的识别处理。
5.一种语音检索装置,其中,所述语音检索装置具有:
识别部,其参照声学模型和至少1个以上的语言模型,进行输入语音的语音识别,按照每个所述语言模型取得识别文字串;
文字串词典存储部,其存储文字串词典,该文字串词典蓄积有表示成为语音检索对象的检索对象词汇的文字串的信息;
文字串对照部,其取得外部识别文字串,对所取得的外部识别文字串以及所述识别部所取得的识别文字串与蓄积在所述文字串词典中的检索对象词汇的文字串进行对照,计算表示所述外部识别文字串以及所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数,针对所述外部识别文字串和所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数,其中,所述外部识别文字串是在外部装置中参照声学模型以及学习数据与所述识别部所参照的语言模型不同的语言模型进行所述输入语音的语音识别而得到的;以及
检索结果确定部,其参照所述文字串对照部所取得的所述文字串对照分数,按照该文字串对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
6.根据权利要求5所述的语音检索装置,其特征在于,
所述识别部取得所述识别文字串的声学似然度和语言似然度,
所述检索结果确定部计算综合分数,按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出,其中,所述综合分数是所述文字串对照部所取得的文字串对照分数、所述识别部所取得的所述识别文字串的声学似然度、语言似然度、以及从所述外部装置取得的所述外部识别文字串的声学似然度、语言似然度中的2个以上的值的加权和。
7.根据权利要求5所述的语音检索装置,其特征在于,
所述语音检索装置具有声学似然度计算部,该声学似然度计算部参照识别精度比所述识别部所参照的所述声学模型高的高精度声学模型进行所述识别部所取得的识别文字串以及外部装置所取得的外部识别文字串与所述输入语音之间的声学模式对照,计算对照声学似然度,
所述识别部取得所述识别文字串的语言似然度,
所述检索结果确定部计算综合分数,按照计算出的综合分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出,其中,所述综合分数是所述文字串对照部所取得的文字串对照分数、所述声学似然度计算部所计算出的对照声学似然度、所述识别部所取得的所述识别文字串的语言似然度、从所述外部装置取得的所述外部识别文字串的语言似然度中的2个以上的值的加权和。
8.一种语音检索方法,包括以下步骤:
识别单元参照声学模型以及学习数据不同的多个语言模型进行输入语音的语音识别,按照所述多个语言模型中的每个语言模型取得识别文字串;
文字串对照单元对所述多个语言模型中的每个语言模型的识别文字串与文字串词典蓄积的作为语音检索对象的检索对象词汇的文字串进行对照,计算表示所述识别文字串相对于所述检索对象词汇的文字串的一致度的文字串对照分数,针对所述识别文字串分别取得文字串对照分数最高的检索对象词汇的文字串和该文字串对照分数;以及
检索结果确定单元参照所述文字串对照分数,按照该文字序列对照分数从高到低的顺序将1个以上的检索对象词汇作为检索结果而输出。
CN201480074908.5A 2014-02-06 2014-02-06 语音检索装置和语音检索方法 Pending CN105981099A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052775 WO2015118645A1 (ja) 2014-02-06 2014-02-06 音声検索装置および音声検索方法

Publications (1)

Publication Number Publication Date
CN105981099A true CN105981099A (zh) 2016-09-28

Family

ID=53777478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480074908.5A Pending CN105981099A (zh) 2014-02-06 2014-02-06 语音检索装置和语音检索方法

Country Status (5)

Country Link
US (1) US20160336007A1 (zh)
JP (1) JP6188831B2 (zh)
CN (1) CN105981099A (zh)
DE (1) DE112014006343T5 (zh)
WO (1) WO2015118645A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526826A (zh) * 2017-08-31 2017-12-29 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN107767713A (zh) * 2017-03-17 2018-03-06 青岛陶知电子科技有限公司 一种集成语音操作功能的智能教学系统
CN109840062A (zh) * 2017-11-28 2019-06-04 株式会社东芝 输入辅助装置以及记录介质
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
CN111710337A (zh) * 2020-06-16 2020-09-25 睿云联(厦门)网络通讯技术有限公司 语音数据的处理方法、装置、计算机可读介质及电子设备
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6532619B2 (ja) * 2017-01-18 2019-06-19 三菱電機株式会社 音声認識装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
WO2018209093A1 (en) * 2017-05-11 2018-11-15 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109145309B (zh) * 2017-06-16 2022-11-01 北京搜狗科技发展有限公司 一种实时语音翻译的方法、及用于实时语音翻译的装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111583906B (zh) * 2019-02-18 2023-08-15 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030216918A1 (en) * 2002-05-15 2003-11-20 Pioneer Corporation Voice recognition apparatus and voice recognition program
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
WO2011068170A1 (ja) * 2009-12-04 2011-06-09 ソニー株式会社 検索装置、検索方法、及び、プログラム
JP2012068354A (ja) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology 音声認識装置、音声認識方法、及びプログラム
KR20120130399A (ko) * 2011-05-23 2012-12-03 휴텍 주식회사 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030216918A1 (en) * 2002-05-15 2003-11-20 Pioneer Corporation Voice recognition apparatus and voice recognition program
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
JP2009265307A (ja) * 2008-04-24 2009-11-12 Toyota Motor Corp 音声認識装置及びこれを用いる車両システム
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
WO2011068170A1 (ja) * 2009-12-04 2011-06-09 ソニー株式会社 検索装置、検索方法、及び、プログラム
CN101887725A (zh) * 2010-04-30 2010-11-17 中国科学院声学研究所 一种基于音素混淆网络的音素后验概率计算方法
JP2012068354A (ja) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology 音声認識装置、音声認識方法、及びプログラム
KR20120130399A (ko) * 2011-05-23 2012-12-03 휴텍 주식회사 하이브리드 방식의 음성인식을 통한 문자 입력 방법 및 장치, 그리고 이를 위한 하이브리드 방식 음성인식을 통한 문자입력 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
CN102982811A (zh) * 2012-11-24 2013-03-20 安徽科大讯飞信息科技股份有限公司 一种基于实时解码的语音端点检测方法
CN103236260A (zh) * 2013-03-29 2013-08-07 京东方科技集团股份有限公司 语音识别系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767713A (zh) * 2017-03-17 2018-03-06 青岛陶知电子科技有限公司 一种集成语音操作功能的智能教学系统
CN107526826A (zh) * 2017-08-31 2017-12-29 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN107526826B (zh) * 2017-08-31 2021-09-17 百度在线网络技术(北京)有限公司 语音搜索处理方法、装置及服务器
CN109840062A (zh) * 2017-11-28 2019-06-04 株式会社东芝 输入辅助装置以及记录介质
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
CN111710337A (zh) * 2020-06-16 2020-09-25 睿云联(厦门)网络通讯技术有限公司 语音数据的处理方法、装置、计算机可读介质及电子设备
CN111710337B (zh) * 2020-06-16 2023-07-07 睿云联(厦门)网络通讯技术有限公司 语音数据的处理方法、装置、计算机可读介质及电子设备

Also Published As

Publication number Publication date
US20160336007A1 (en) 2016-11-17
WO2015118645A1 (ja) 2015-08-13
JP6188831B2 (ja) 2017-08-30
JPWO2015118645A1 (ja) 2017-03-23
DE112014006343T5 (de) 2016-10-20

Similar Documents

Publication Publication Date Title
CN105981099A (zh) 语音检索装置和语音检索方法
Harwath et al. Unsupervised learning of spoken language with visual context
Chung et al. Audio word2vec: Unsupervised learning of audio segment representations using sequence-to-sequence autoencoder
CN106782560B (zh) 确定目标识别文本的方法及装置
Jansen et al. A summary of the 2012 JHU CLSP workshop on zero resource speech technologies and models of early language acquisition
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
KR102094935B1 (ko) 음성 인식 시스템 및 방법
US10872601B1 (en) Natural language processing
Deng et al. Improving accent identification and accented speech recognition under a framework of self-supervised learning
Gupta et al. A language independent approach to audio search
Szöke et al. Calibration and fusion of query-by-example systems—BUT SWS 2013
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
Sanabria et al. Talk, don't write: A study of direct speech-based image retrieval
WO2022148176A1 (en) Method, device, and computer program product for english pronunciation assessment
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
Doetsch et al. Inverted alignments for end-to-end automatic speech recognition
Hai et al. Cross-lingual phone mapping for large vocabulary speech recognition of under-resourced languages
JP5436307B2 (ja) 類似文書検索装置
Kipyatkova et al. Recurrent neural network-based language modeling for an automatic Russian speech recognition system
Zhou et al. Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
JP2009271117A (ja) 音声検索装置および音声検索方法
Xiao et al. Information retrieval methods for automatic speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160928

WD01 Invention patent application deemed withdrawn after publication