JP3660512B2 - 音声認識方法、その装置及びプログラム記録媒体 - Google Patents

音声認識方法、その装置及びプログラム記録媒体 Download PDF

Info

Publication number
JP3660512B2
JP3660512B2 JP34702698A JP34702698A JP3660512B2 JP 3660512 B2 JP3660512 B2 JP 3660512B2 JP 34702698 A JP34702698 A JP 34702698A JP 34702698 A JP34702698 A JP 34702698A JP 3660512 B2 JP3660512 B2 JP 3660512B2
Authority
JP
Japan
Prior art keywords
word string
model
words
acoustic
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP34702698A
Other languages
English (en)
Other versions
JP2000172294A (ja
Inventor
克年 大附
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP34702698A priority Critical patent/JP3660512B2/ja
Publication of JP2000172294A publication Critical patent/JP2000172294A/ja
Application granted granted Critical
Publication of JP3660512B2 publication Critical patent/JP3660512B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、人間の音声から発話内容を同定するための音声認識方法及びプログラム記録媒体に関する。
【0002】
【従来の技術】
音声の音響的特徴を確率的、統計的にモデル化する手法である隠れマルコフモデル(Hidden Markov Model:HMM)を用いた音声認識システムでは、一認識対象カテゴリ、つまり音素、音節、単語などの語彙(あるいは認識対象語彙)ごとに、一つ、あるいは複数のHMMを設定し、学習用音声を用いて学習する。認識時には、音声認識システムの入力音声がそれらの音響モデルから観測される確率を計算し、尤度(尤もらしさ)の最も高い順に認識結果候補としている。HMMは、統計的なモデルであるから学習用音声中に現れた頻度に従って、ある音響的特徴パラメータとあるカテゴリとを関連づける強さを内部に確率分布として表現する。
【0003】
連続音声認識では、調音結合の影響などにより認識に用いられる特徴パラメータが変動しやすく、また発音が似ているあるいは同じ単語が存在する。そのため特徴パラメータだけから正確な音声認識を行うことが困難である。そこで、文法的な特徴、つまり単語の接続規則から認識結果を判定するための言語モデルを用い、文脈によってより出現しやすい単語により重みをおいて評価するなどの言語的な処理により認識精度を向上する手法が取られる。
【0004】
音響モデルと言語モデルを組み合わせて用いる音声認識では、図2に示すように音響特徴量分析部11と、デコーダー12からなり、デコーダー12では記憶部13の、音響的特徴と単語的特徴との対応関係を統計的に示す音響モデルと記憶部14の、単語の接続規則を表わす言語モデルとによって入力音声の特徴量が評価される。認識対象である音声入力は、分析部11の特徴量分析により音響パラメータベクトルの時系列(音響特徴量)にされ、デコーダー12において音響モデルと言語モデルにより尤度が計算される。デコーダー12は計算された尤度に基づいて上位N個の仮説を探索の結果として出力する。
【0005】
つまりこの連続音声認識システムでは一般に、特徴パラメータベクトルの時系列Xが単語列Wを与える確率P(W|X)を最大化するようなWが認識結果として選ばれる。P(W|X)を最大化するようなWは以下の式により求められる。
W^=arg W max P(X|W)P(W)
ここで、P(X|W)は、音響モデルにより与えられ、P(W)は言語モデルにより与えられる。つまりW^はP(X|W)P(W)を最大にするWである。
【0006】
【発明が解決しようとする課題】
従来の連続音声認識方法では、言語モデルとして、先行するn−1単語に対してある単語が出現する確率を与えるn−gram言語モデルが用いられていた。n−gram言語モデルは文中の局所的な文法的な拘束を与えることはできるが、発声者が伝えたい内容を抽出するために文全体を評価することはできない。このため、認識結果の文の途中に文の内容とは関係のない単語が誤って含まれることがあった。
【0007】
この発明の目的は発声者の伝えようとした内容をよりよく表現するような認識結果を与えるような音声認識方法及び装置を提供することにある。
【0008】
【課題を解決するための手段】
上記課題を解決するため、この発明では音声認識を音声からその発声者が何を伝えたいかを抽出することであると考えつまり、音声認識を図3に示すようなモデルで考える。即ち発話の生成は、発話したい内容(メッセージ)Mを考え、次にその内容Mがどのような単語列Wかを、言語、語彙、文法、意味論、文脈などを参照して考え、その単語列Wがどのような音声Xであるかを、話者、反響、雑音、マイクロホン特性などを参照して考え、このようにして生成された音声が音声認識器に入力されると考えられる。従って、この過程を逆にたどり、入力音声の音響的特徴Xから単語列の予測P(X|W)を行い、その尤度の高いWから内容Mの予測P(W|M)を行い、更にその尤度の高いMから発話意図P()の高いものを決定すればよい。このことは、音声認識のプロセスを音響パラメータベクトルの時系列Xが発声者が伝えようとした内容(メッセージ)Mを与える、確率P(M|X)を最大化するようなMを選ぶ問題としてとらえることができる。
【0009】
P(M|X)を最大化するような内容M^は以下の式により求められる。
M^=arg M max P(X|W)P′(W|M)P(M)
ここで、P(X|W)は、従来の音声認識方法と同様に音響モデルにより与えられる。P(M)は、Mに無関係に等確率、例えば1と考えると、問題は、P′(W|M)をいかに与えるかということに帰着する。
【0010】
P′(W|M)を近似的に次式のように表すことにより、Mに独立な部分P(W)とMに依存する部分P(W|M)とに分けて考える。
P′(W|M)=(1−λ)P(W)+λP(W|M)
ここでλは0≦λ≦1の重みである。P(W)は、従来の統計的n−gram言語モデルで表現される。
【0011】
P(W|M)の表現形式としては、Mを話題(トピック)の種類などにより明示的に表現する方法と、Mをn−gram言語モデルの重み付けや単語の共起などにより暗示的に表現する方法とが考えられる。Mを話題(トピック)の種類などにより明示的に表現する方法は、例えば、Stanley F. Chen, Kristie Seymore, Ronald Rosenfeld, “Topic Adaptation for Language Modeling using Unnormalaized Exponential Models,”Proceedings of ICASSP98, pp.681-684 。赤松,甲斐,中川,“新聞・ニュース分の大語彙連続音声認識,”情報処理学会研究報告,98-SLP-21-11、などに示されている。
【0012】
P(W|M)の表現形式としてはMを文中の単語と単語との共起関係に基づく関連度(関連性の強さ)用いてもよい。
この単語間の共起関係に基づく関連度として、学習用テキストデータから統計的に得られる単語間の相互情報量あるいは、それに基づく値を用いてもよい。
【0013】
【発明の実施の形態】
以下、図1を参照して、この発明の一実施形態について説明する。HMMに基づく音響モデルとn−gram言語モデルとを用いた連続音声認識の場合を例としてこの発明の一実施形態を説明する。
図1において図2と対応する部分に同一番号を付けてある。入力音声は図3で示したと同様に音響モデルと言語モデルを用いて処理され、尤度の大きい順からN個の単語列の認識結果候補が得られる。
【0014】
この実施形態では、発声者の伝えようとした意図は、発話中の単語の共起によって表されると考え、デコーダー12により出力された各単語列仮説から、名詞抽出・共起スコア評価部15で名詞のみを抽出し、記憶部16の各名詞相互間の相互情報量に基づく共起スコアを用いて仮説の再評価を行い、少なくとも1個以上の認識結果を得る。単語wi と単語wj との共起スコアは次式のように表される。
【0015】
【数1】
Figure 0003660512
ここで、p(wi ,wj )は、単語wi と単語wj との一発話中での共起確率、p(wi ),p(wj )はそれぞれ単語wi 、単語wj の出現確率である。この共起スコアの式中の分母の平方根演算を省略したものが統計的相互情報量であり、この平方根演算としたものが統計的相互情報量から派生される統計量と言える。この共起スコアは、学習用テキストデータ中の各名詞の組み合わせについて計算した。P(W)とP(W|M)の重みλは実験的に適切な値に設定した。評価用の音声データとして放送ニュース音声50文のセットを用いた。仮説中のすべての名詞の組の共起スコアをλで重み付けしたものを、仮説の尤度に加算して再評価することにより、共起スコアを用いない場合の単語正解精度83.2%から83.9%まで改善した。なおP(W)は言語モデルを用いた仮説の尤度計算に含まれている。
【0016】
上述では共起スコアを発声者が伝えようとした意図を表わすとしたが、つまり意味モデルとしたが、主題など明示的に表現する意味モデルを用いてもよい。
図1に示したシステムはコンピュータにより処理させてもよい。
【0017】
【発明の効果】
以上説明したように、この発明によれば、発声者がその発話で表現しようとした意図に関する情報を利用することにより、精度の高い連続音声認識処理を行うことができる。
【図面の簡単な説明】
【図1】発声者の意図に関する情報として単語の共起情報を利用した、この発明による連続音声認識システムの機能構成例を示す図。
【図2】連続音声認識システムの一般的機能構成を示す図。
【図3】この発明の音声認識方法における音声生成と音声認識のモデルを示す図。

Claims (7)

  1. 力音声信号の音響的特徴を解析する過程と、
    音響的特徴と言語的特徴との対応関係を示す音響モデル及び単語の接続規則を表わす言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Wn(n=1,2,3・・・)を求め、各単語列候補Wnの前記音響モデルによる尤度をそれぞれP(X | Wn)とする過程と、
    前記単語列候補Wnのそれぞれについて、単語列とその意味的関係を示す意味モデルを参照して各単語間の全ての組合せの共起スコアを求める過程と、
    前記単語列候補Wnのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Wnの意味モデルによる確率P(Wn | M)を求める過程と、
    前記単語列候補Wnのそれぞれについて、各単語列Wnの言語モデルによる確率P(Wn)を求める過程と、
    前記言語モデルによる確率P(Wn)と前記意味モデルによる確率P(Wn | M)の予め決めた重みλ(0<λ≦1)による重み付け和P′(Wn | M)(=(1−λ)P(W)+λP(W|M))を求める過程と、
    前記重み付け和P′(Wn | M)と前記音響モデルによる尤度P(X | Wn)の積が最大となる前記単語列候補Wnを認識結果として求める過程と、
    を有することを特徴とする音声認識方法。
  2. 前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項1記載の音声認識方法。
  3. 前記関連性の強さとして大量のテキストデータから統計的に得られる単語間の相互情報量又はその統計的相互情報量から派生される統計量を用いることを特徴とする請求項1又は2記載の音声認識方法。
  4. 音響的特徴と言語的特徴との対応関係を示す音響モデルと、
    単語の接続規則を表わす言語モデルと、
    単語列とその意味的関係を示す意味モデルと、
    入力音声信号の音響的特徴を解析する手段と、
    前記音響モデル及び前記言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Wn(n=1,2,3・・・)を求め、各単語列候補Wnの音響モデルによる尤度をそれぞれP(X | Wn)とする手段と、
    前記単語列候補Wnのそれぞれについて、前記意味モデルを参照して各単語間の全ての組合せの共起スコアを求める手段と、
    前記単語列候補Wnのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Wnの意味モデルによる確率P(Wn | M)を求める手段と、
    前記単語列候補Wnのそれぞれについて、各単語列Wnの言語モデルによる確率P(Wn)を求める手段と、
    前記言語モデルによる確率P(Wn)と前記意味モデルによる確率P(Wn | M)の予め決めた重みλ(0<λ≦1)による重み付け和P′(Wn | M)(=(1−λ)P(W)+λP(W|M))を求める手段と、
    前記重み付け和P′(Wn | M)と前記音響モデルによる尤度P(X | Wn)の積が最大となる前記単語列候補Wnを認識結果として求める手段と、
    を具備することを特徴とする音声認識装置。
  5. 前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項記載の音声認識装置。
  6. 力音声信号の音響的特徴を解析する処理と、
    音響的特徴と言語的特徴との対応関係を示す音響モデル及び単語の接続規則を表わす言語モデルを参照して前記音響的特徴から尤度の高いものから順に複数の単語列候補Wn(n=1,2,3・・・)を求め、各単語列候補Wnの前記音響モデルによる尤度をそれぞ れP(X | Wn)とする処理と、
    前記単語列候補Wnのそれぞれについて、単語列とその意味的関係を示す意味モデルを参照して各単語間の全ての組合せの共起スコアを求める処理と、
    前記単語列候補Wnのそれぞれについて、各単語間の全ての組合せの共起スコアを加算して単語列候補Wnの意味モデルによる確率P(Wn | M)を求める処理と、
    前記単語列候補Wnのそれぞれについて、各単語列Wnの言語モデルによる確率P(Wn)を求める処理と、
    前記言語モデルによる確率P(Wn)と前記意味モデルによる確率P(Wn | M)の予め決めた重みλ(0<λ≦1)による重み付け和P′(Wn | M)(=(1−λ)P(W)+λP(W|M))を求める処理と、
    前記重み付け和P′(Wn | M)と前記音響モデルによる尤度P(X | Wn)の積が最大となる前記単語列候補Wnを認識結果として求める処理と、
    を音声認識装置のコンピュータに実行させるプログラムが記憶された記録媒体。
  7. 前記単語の組み合わせの意味的関係の評価において、前記認識結果候補の各単語列におけるすべての単語のうち、名詞のみを単語とみなして意味的関係の評価を行うことを特徴とする請求項記載の音声認識装置。
JP34702698A 1998-12-07 1998-12-07 音声認識方法、その装置及びプログラム記録媒体 Expired - Fee Related JP3660512B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34702698A JP3660512B2 (ja) 1998-12-07 1998-12-07 音声認識方法、その装置及びプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34702698A JP3660512B2 (ja) 1998-12-07 1998-12-07 音声認識方法、その装置及びプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2000172294A JP2000172294A (ja) 2000-06-23
JP3660512B2 true JP3660512B2 (ja) 2005-06-15

Family

ID=18387427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34702698A Expired - Fee Related JP3660512B2 (ja) 1998-12-07 1998-12-07 音声認識方法、その装置及びプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3660512B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10038517A1 (de) * 2000-08-08 2002-02-21 Philips Corp Intellectual Pty Automatissche Erkennung von Unternehmensnamen in sprachlichen Äußerungen
US6763331B2 (en) 2001-02-01 2004-07-13 Matsushita Electric Industrial Co., Ltd. Sentence recognition apparatus, sentence recognition method, program, and medium
JP4533160B2 (ja) * 2005-01-21 2010-09-01 日本電信電話株式会社 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP4653598B2 (ja) * 2005-08-29 2011-03-16 日本放送協会 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP4890518B2 (ja) * 2008-08-29 2012-03-07 ヤフー株式会社 複数言語モデルによる統合音声認識装置
JP5585111B2 (ja) * 2010-02-16 2014-09-10 日本電気株式会社 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム
JP5673239B2 (ja) * 2011-03-10 2015-02-18 富士通株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP5513440B2 (ja) * 2011-05-26 2014-06-04 日本電信電話株式会社 音声認識方法とその装置とプログラム
JP5513461B2 (ja) * 2011-09-27 2014-06-04 日本電信電話株式会社 音声認識装置とその方法とプログラム
JP5772585B2 (ja) * 2011-12-28 2015-09-02 トヨタ自動車株式会社 音声認識装置、方法、及びプログラム
CN103971675B (zh) * 2013-01-29 2016-03-02 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统

Also Published As

Publication number Publication date
JP2000172294A (ja) 2000-06-23

Similar Documents

Publication Publication Date Title
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
WO2017114172A1 (zh) 一种发音词典的构建方法及装置
CN104681036A (zh) 一种语言音频的检测系统及方法
CN106875936B (zh) 语音识别方法及装置
JP2001517816A (ja) 連続および分離音声を認識するための音声認識システム
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP2002342323A (ja) 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
TW201828281A (zh) 發音詞典的構建方法及裝置
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
CN112908359A (zh) 语音测评方法、装置、电子设备及计算机可读介质
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
Siniscalchi et al. An attribute detection based approach to automatic speech processing
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
JPH08241096A (ja) 音声認識方法
JPH10232693A (ja) 音声認識装置
EP2948943B1 (en) False alarm reduction in speech recognition systems using contextual information
CN113421587B (zh) 语音评测的方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050317

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080325

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090325

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100325

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110325

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120325

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130325

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees