JP2009204732A - 音声認識装置、音声認識辞書作成方法およびプログラム - Google Patents

音声認識装置、音声認識辞書作成方法およびプログラム Download PDF

Info

Publication number
JP2009204732A
JP2009204732A JP2008044902A JP2008044902A JP2009204732A JP 2009204732 A JP2009204732 A JP 2009204732A JP 2008044902 A JP2008044902 A JP 2008044902A JP 2008044902 A JP2008044902 A JP 2008044902A JP 2009204732 A JP2009204732 A JP 2009204732A
Authority
JP
Japan
Prior art keywords
reading
notation
unregistered word
document
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008044902A
Other languages
English (en)
Inventor
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008044902A priority Critical patent/JP2009204732A/ja
Publication of JP2009204732A publication Critical patent/JP2009204732A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】未登録語の読みを高い精度で推定して音声認識辞書に登録する。
【解決手段】未登録語抽出部105は、入力された文書から音声認識辞書103に存在しない未登録語を抽出する。読み確率記憶部107は、読みと表記及びその読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルとを記憶する。読み推定部106は、上記読み確率記憶部107に記憶された第1のテーブル及び第2のテーブルを用いて未登録語抽出部105で抽出された未登録語の表記に対応する条件付確率が最大となる読み候補を生成し、読み候補と未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む文書数を求め、この文書数に基づいて読み候補から未登録語の読みを選択する。
【選択図】 図1

Description

本発明は、ユーザが発話した音声を入力として音声認識を行う音声認識装置において、音声認識辞書に登録されていない未登録語に対して読みを推定する装置、方法およびプログラムに関する。
近年、音声認識を用いたヒューマンインタフェースの実用化が徐々に進んでいる。例えば、あらかじめ設定されている特定のコマンドをユーザが音声入力すると、システムが音声認識を行い、認識結果に対応する操作を実行するような音声操作によるカーナビゲーションシステムが実現され、販売されている。また、ユーザが任意の文章を発声し、これをシステムが分析して、自動的に文字列に変換することにより、音声入力による文章作成を可能とする音声入力ソフトウェアも実現され、販売されている。さらに、ロボットにおけるユーザとのインタラクションを音声入力によって可能するための研究開発も盛んに行われており、ロボットに対する動作指示やロボットを介しての様々な情報へのアクセスを音声によって行うことが試みられている。
音声認識の一般的な処理では、まず初めに、ユーザから発声された音声信号をマイクロフォンによって電気信号に置き換えることによりシステムに取り込んだ後、この電気信号を、A/D(アナログデジタル)変換装置を用いて、音声信号の波形振幅の時系列情報を表現するデジタルデータに変換する。そして、このデジタルデータに対して、FFT(高速フーリエ変換)分析などを適用することにより、音声を構成する各音素の周波数の特徴量(音素ごとにピークとなる周波数帯域が異なるため、音素を判別するための特徴量として用いることができる)を時系列(本発明では、特徴量時系列データと呼ぶ)として抽出する。続いて、認識処理では、あらかじめ保持している各音素の特徴データの標準パターンを格納した辞書(本発明では、音素辞書と呼ぶ)や、各単語を構成する音素記号列と単語見出しとの対応情報を格納した辞書(本発明では、単語辞書と呼ぶ)を用いて、文字列に変換する。
代表的な音声認識手法であるHMM(隠れマルコフモデル)方式では、単語辞書に格納されるデータは、音素間の遷移関係をネットワーク(本発明では、単語ネットワークと呼ぶ)で表現し、ネットワーク中のノード(音素に対応)間のリンクには確率値が付与される。入力された音声の特徴量時系列データと音素辞書に格納された標準パターンと照合することにより、各音素との類似度を求め、この類似度に基づき、単語辞書に格納されている単語ネットワークを用いて、入力音声と最も類似度の高い単語候補を求める方式である(例えば、非特許文献1を参照。)。
しかしながら、単語辞書に登録されていなければ、音声認識結果として出力できない。つまり未登録語については音声認識できないということになる。特に人名や商品名など日々新しく発生する可能性の高い語は、未登録語となる可能性が高かった。例えば、テレビ番組の録画や再生を行うビデオ録画装置において、音声認識機能を実現することを考えると、歌手名やグループ名や俳優名は未登録語となる場合が多く、この未登録語の問題に対応することが必要であった。
そこで、未登録語に対処するため、特許文献1では、WWW(World Wide Web)に公開されている文書を自動巡回ソフトウェアによって収集し、収集した文書から音声認識の単語辞書に登録されていない未登録語を抽出し、単語辞書に登録する方法が開示されている。音声認識の単語辞書に登録するためには、その語の読みも同時に登録する必要がある。しかし、特許文献1では、各漢字に対応付けられた読みの組合せによって読みを生成するため、可能な読みが多数生成される可能性や誤った読みを生成する可能性があった。
近年、WWWへの情報を書き込むユーザが増大しており、多くの人が歌手や俳優、スポーツ選手に対するコメントや情報を書き込むようになってきている。Webに登録されている情報は、Web検索エンジンを用いてキーワード検索を行うことができる。そこで、本発明は、このWWWの情報を有効に利用することにより、音声認識辞書における未登録語に関しての読みの推定を行うものである。
鹿野清宏他,音声認識システム,オーム社,pp.17−51,2001 特開2002−14693公報
上述したように、音声認識辞書を用いてユーザの発話する音声を認識する装置では、音声認識結果は事前にシステムに登録された語彙の組合せによって表現される。このため、音声認識辞書に登録されていない未登録語をユーザが発話したとしても、その語に似た発音の語が辞書に登録されている場合、誤ってそれら登録語のいずれかに誤認識してしまい、正しい認識結果が得られないといった問題があった。このような未登録語に対処するためには、その未登録となっている語の表記と読みとを音声認識システムの辞書に登録する必要がある。しかし、新規語彙は日々新しく発生しており、これら新規語彙を音声認識辞書に登録することはコスト増となり、対応に困難を伴っていた。
また、上記特許文献1では、自動巡回ソフトによってWWWで公開されているホームページから未登録語を抽出するとともに、その読みを推定し、音声認識辞書に登録する方法が開示されているが、この読み推定の方法では、可能な読みが多数生成される可能性や誤った読みを生成する可能性があった。
本発明は、上記事情に鑑みてなされたものであり、その目的とするところは、未登録語の読みを高い精度で推定して音声認識辞書に登録することができる音声認識装置、音声認識辞書作成方法およびプログラムを提供するものである。
上記目的を達成するためにこの発明に係る音声認識装置は、登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置であって、第1の文書を入力する文書入力部と、前記第1の文書から前記音声認識辞書に存在しない未登録語を抽出する抽出部と、読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルを記憶する記憶部と、前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する条件付確率が最大となる読み候補を生成する生成部と、前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求める検索部と、前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択する選択部と、前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録する登録部とを具備することを特徴とする。
また、この発明に係る音声認識辞書作成方法は、登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置に用いられ、第1の文書を入力するステップと、前記第1の文書から未登録語を抽出するステップと、読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルを記憶するステップと、前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する条件付確率が最大となる読み候補を生成するステップと、前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求めるステップと、前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択するステップと、前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録するステップと
を具備することを特徴とする。
また、この発明に係る音声認識辞書作成プログラムは、登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置を制御するプログラムであって、コンピュータに、第1の文書を入力する処理と、前記第1の文書から未登録語を抽出する処理と、読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルを記憶する処理と、前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する条件付確率が最大となる読み候補を生成する処理と、前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求める処理と、前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択する処理と、前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録する処理とを実行させることを特徴とする。
したがってこの発明によれば、未登録語の読みを高い精度で推定して音声認識辞書に登録することができる音声認識装置、音声認識辞書作成方法およびプログラムを提供することができる。
以下、図面を参照しながら本発明の実施の形態を詳細に説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成を示す機能ブロック図である。この音声認識装置は、音声入力部101、音声認識部102、音声認識辞書103、文書入力部104、未登録語抽出部105、読み推定部106、読み確率記憶部107、および制御部108を備える。
なお、この音声認識装置は、例えば、CPU(Central Processing Unit)、メモリ、ディスク装置を備えるコンピュータで実現できる。制御部108はマイクロプロセッサ等のCPUで構成され、各要素モジュールの処理制御を行う。音声認識部102、文書入力部104、未登録語抽出部105、読み推定部106、はメモリ上で実行される制御プログラムにより実現する。音声認識辞書103および読み確率記憶部107は、RAMやハードディスク等に記憶されるデータとして構成される。
音声入力部101は、ユーザが発話する音声を取り込む機能を有し、ユーザが発話する音声をデジタル形式での音声信号に変換するための、マイクロフォンやアナログデジタル信号変換器などで実現される。
音声認識辞書103は、音声認識のために登録語の表記とその読みとが対応付けられて格納される。
音声認識部102は、音声入力部101から得られる音声信号を入力として、音声認識処理を行い、音声認識辞書103に登録されている語のいずれかを認識結果として出力する。音声認識処理については、すでに多くの研究開発事例、実現事例が存在しており、それら既存の技術を用いることができる。
文書入力部104は、未登録語の抽出のために用いられる文書の入力を受け付ける。この文書として、例えば、Webページを用いる場合には、文書入力部104は、通信ネットワークNWを介して接続される外部の複数のWebサーバ109へのアクセスを可能にするネットワークインタフェースにより構成される。文書入力部104は、制御部108の制御の下で、各Webサーバ109において格納されているWebページをhttp(Hyper Text Transfer Protocol)等によって読み込む処理を行う。Webページを読み込むには、httpコマンド中のURL(Uniform Resouce Locators)にWebサーバの名前やWebページの名前等を表現し、それによって特定されるWebサーバが指定されたWebページを返すものである。一方、インターネット上で公開されているGoogle(登録商標)などの検索サービスを利用する場合についても、httpコマンド中のURLを拡張定義したURI(Uniform Resource Identifiers)に検索条件を埋め込み、検索サービスを提供しているWebサーバは検索結果をWebページとして返すように指示するものである。このように、Web検索サービスの利用は、通常のWebサーバに格納されているWebページへのアクセス方法と同様の方法で行うことができるようになっている。
未登録語抽出部105は、文書入力部104によって獲得された文書から音声認識辞書103に存在しない未登録語の抽出を行う。この処理の詳細は後述する。
読み確率記憶部107は、読みと表記及びその読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルとを記憶する。第1のテーブルおよび第2のテーブルの詳細は後述する。
読み推定部106は、図2に示すように読み候補生成部1061、文書検索部1602、読み選択部1603、及び新規登録部1604を有する。読み候補生成部1601では上記読み確率記憶部107に記憶された第1のテーブル1701及び第2のテーブル1702を用いて未登録語抽出部105で抽出された未登録語の表記に対応する条件付確率が最大となる読み候補を生成する。文書検索部1602は、読み候補と未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む文書数を求める。本実施形態では、図2に示すように、例えば通信ネットワークNW上のWebサーバ109等にアクセスし、通信ネットワーク上の文書群に対して文書検索を行うものとする。読み選択部1603は、検索された文書数に基づいて読み候補から未登録語の読みを選択する。新規登録部1604は、読み選択部1603で選択された未登録語の読みを音声認識辞書103に登録する。これら各部の処理の詳細は後述する。
次に、このように構成された音声認識装置の動作について詳細に説明する。
(未登録語抽出処理)
図3は、未登録語抽出部105の処理の手順とその内容を示すフローチャートである。音声認識機能を利用する応用システムによって、この未登録語抽出部105で処理すべき文書は変わってくる。例えば、放送番組を録画し再生するビデオ録画機器や放送番組を受信表示するテレビ受像機において、放送番組の検索などを指示するために音声認識機能を利用する場合、番組名や番組への出演者(歌手や俳優等)が音声認識すべき語となる。これらの語が用いられる文書としては、例えばEPG(Electronic Program Guide)が考えられる。未登録語抽出部105では、あらかじめ定められたWebサーバに格納されているEPGを読み込み、音声認識辞書103に未登録となっている語を抽出する。また、特定の企業サイトのWebページをナビゲートするために音声認識機能を利用する場合は、未登録語抽出部105では、該当する企業サイトのWebページを処理対象として、未登録語の抽出を行うようにする。
図3において、未登録語抽出部105は、はじめに書式解析を行い、地の文を取り出す(ステップS3a)。Webページは、例えばHTML(Hyper Text Mark−up Language)で記述されており、文書構造を表現するためのタグが含まれているので、これらタグを削除し、地の文を取り出す処理を行う。
次に、未登録語抽出部105は、形態素解析を行う(ステップS3b)。形態素解析は、ステップ201の書式解析で取り出された地の文を、語単位に分割し、各語の品詞の判定結果を出力するものである。
最後に、未登録語抽出部105は、形態素解析によって得られる各語について、音声認識辞書103に登録されているか否かを判定し、登録されていない場合に、未登録語として抽出する(ステップS3c)。
(読み推定処理)
図4は、読み推定部106の処理の手順とその内容を示すフローチャートである。図4において、読み推定部106の読み候補生成部1601は、読み確率記憶部107に記憶される第1のテーブル1701および第2のテーブル1702を用いて、未登録語に対応する読み候補の生成を行う(ステップS4a)。これは、次のようなモデルに基づくものである。つまり、ある原表記Hが与えられた時に読みYとなる条件付確率をP(Y|H)とすると、この条件付確率P(Y|H)が最大となるような読みYを求める探索問題として定式化する(式(1))。式1はベイズの定理によって、式2に変形することが可能である。原表記Hは与えられるものであるので、式(2)のP(H|Y)・P(Y)/P(H)を最大とするYを求める処理において、P(H)は定数であり考慮する必要がないので、式(3)のように変形することができる。
Figure 2009204732
式(3)におけるP(H|Y)やP(Y)はそのままでは計算することができないので、近似が必要となる。そこで、式(4)に示すように、細かい単位に分解する。
Figure 2009204732
式(4)は、各確率値の積となっているが、これを処理の都合上、和にするため、対数をとることにより、式5のように表現することができる。
Figure 2009204732
式(5)において、前半の確率を特に「読みから表記への条件付確率」、後半の確率を「読みの出現確率」と呼ぶことにする。これらの「読みから表記への条件付確率」と「読みの出現確率」は、原表記と読みとの事例が多数存在すれば、その事例におけるそれぞれの値を算出することができる。図5に、読みと表記及びその読みから表記への条件付確率を対応付けた第1のテーブル1701の構成の一例を示す。また図6に、読みとその出現確率とを対応付けた第2のテーブル1702の一例を示す。読みの出現確率は、例えば、N-gramモデル(ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか)を用いて求めることができる。図6は、3gramでテキスト分析を行った場合の読みの出現確率(n_gram_score)を示したものである。
読み候補生成部1601は、第1のテーブル1701および第2のテーブル1702を用いて式(5)を満足する(未登録語の表記に対応する条件付確率が最大となる)読み候補を生成する。すなわち、読み候補生成部1601は、未登録語の表記を部分文字列に分解し、上記第1のテーブル1701から読み出した各部分文字列に対応する読みから表記への条件付確率と、上記第2のテーブル1702から読み出した各部分文字列に対応する出現確率とを用いて、想定される読み候補それぞれに対応するスコアを求める。式(5)を求める効率的なアルゴリズムとしては、例えばビタビアルゴリズムが知られており、これを利用することができる。
ここで、ビタビアルゴリズムについて説明する。図7に「Gospellers」という語を未登録語とした場合に、ビタビアルゴリズムにおいて仮想的に生成されるラティス構造を示す。ノードと各ノード間を結ぶリンクからなる構造であり、ノード0から右に向って各リンクをたどって行きノードN(ここではN=10)に到達すれば、「Gospellers」という文字列を合成することができる。リンクには英語表記とカナ表記が対で記述されているが、原表記「Gospellers」の部分文字列と、その部分文字列に対応するカナ読み表記である。なお、このデータ構造は仮想的に生成されるのであって、スコアが最大のパスを求めるためには、事前に構築しておく必要はないが、説明を簡単にするために用いる。
図8は、図7における各リンクに対応する読みから表記への条件付確率の値を示している。これらの読みから表記への条件付確率の値は、読み確率記憶部107の第1のテーブル1701から得ることができる。
ビタビアルゴリズムでは、次の処理を行う。ただし、α(j,i)は、ノードjにおけるリンクiに対する中間スコア、B(j,i)は最良のパスをたどるためのポインタとする。
ステップ1(初期化):
開始ノードのノード0におけるスコアα(0,i)に0を代入する。
Figure 2009204732
ステップ2(初期遷移):i=1,・・・,M
開始ノードのノード0からノード1へ遷移しているリンクについて、読み確率記憶部107の第1のテーブル1701に格納している対応する読みから表記への条件付確率α0iを取り出しα(1,i)に代入する。ノード1に左から入るリンクの元ノードはノード0であるので、B(1,i)には0を代入する。
Figure 2009204732
図8の場合:ノード0からノード1に出ているリンクは「g/グ」が付されているリンクだけであるので、Mは1であり、「g/グ」の読みから表記への条件付確率は−0.098である。例えば、第2のテーブル1702より「SSグ」の読みの出現確率(n_gram_score)が−4.659とすると(「SSグ」は語頭が「グ」であることを意味する)、α(1,1)=−0.098−4.659=−4.757ならびにB(1,1)=0がそれぞれ設定されることになる。
ステップ3(漸化式計算):n=2,・・・,N
下記の式(9)および式(10)の計算を繰り返し行い、最終ノードのノードNまで到達したらステップ4へ進む。なお、α(n−1,m)はノードn−1におけるスコア、リンクn_gram_score(y(i,n−1,m))はノードn−1からリンクiへの遷移によって得られる読みの出現確率によるスコアである。
Figure 2009204732
図7の場合、例えば、ノード2では、ノード1を経由する「g/グ」のスコアは−4.757、「o/ア」「o/ウ」「o/オ」の読みから表記への条件付確率はそれぞれ−6.281、−5.094、−0.027、ノード0から直接リンクがはられる「go/ガ」「go/ガッ」「go/ゴ」「go/ゴウ」の読みから表記への条件付確率はそれぞれ−0.013、−2.944、−3.473、−2.031である。いま、「Sグア」「Sグウ」「Sグオ」「SSガ」「Sガッ」「SSゴ」「Sゴウ」の読みの出現確率によるスコアをそれぞれ−4.478、−10.000、−10.000、−5.936、−4.100、−5.217、−4.048とすると、下記が得られる。これは、ノード2においてリンクのうち4番目のリンク(go/ガ)を経由したノード0からのパスが最大のスコアを持つことを意味している。
Figure 2009204732
この計算をノードを右に順次進めて繰り返し計算していくことになる。
ステップ4:
B(N,MN)のリンクを逆にたどり、最大のスコアのパスを得る。
例えば、図4には例として、未登録語の原表記として「Gospellers」が与えられた場合に、「ガスペラーズ」「ガスプレルス」「ガスペラース」が上位の読み候補としてスコア順に出力されることを示している。
文書検索部1602は、原表記と読み候補を検索キーワードとしてWeb検索エンジンを起動し、通信ネットワークNW上のWebサーバ109にアクセスして検索文書数を得る(ステップS4b)。具体的には、例として「Gospellers」を処理した場合、「Gospellers+ガスペラーズ」、「Gospellers+ガスプレルス」、「Gospellers+ガスペラース」というキーワードでの検索(「+」はアンド検索を意味している)を実施することで、それぞれについて、検索文書数が得られる。これは、歌手やグループ、スポーツ選手、俳優などの名前が、Webページで記述される場合、原表記と読み(カタカナあるいはひらがな)とを対にして表記することがあるため、原表記と読みとをアンド検索することにより、その対応付けの適否を検証することができる。
次に、読み選択部1603は、上記ステップS4bで得られた検索文書数を用いて、上記ステップS4aで生成された読み候補から未登録語に対応する読みを選択する(ステップS4c)。なお、単純に、上記得られた検索文書数の最も大きい読み候補を未登録語の読みとして選択することもできるが、ここでは、読みの推定精度を向上させるために、以下のような手順で行う。
ステップS4cにおいて、読み選択部1603は、ステップS4aで得られた各読み候補のスコアと、ステップS4bで得られた検索文書数とに基づいて読みを選択する。選択の基準としては、読み候補のスコア、原表記と読み候補とのアンド検索によって得られる文書数を用いて、次のような式を定義する。
Figure 2009204732
なお、αは0以上1以下の定数であり、あらかじめ定めておく。
上記式(13)の導出は以下のように行われる。原表記Hが与えられた時に読みYが得られる条件付確率を、Web検索において原表記Hが与えられた時の読みYの条件付確率Pweb(Y|H)と、確率モデルにおける条件付確率PSLM(Y|H)との加重平均で定義することにすると、式(14)のようになる。
Figure 2009204732
ベイズの定理により変形する。読みHのWeb上での頻度をFweb(Y,K)、原表記HのWeb上での頻度をFweb(K)として、式(15)のように変形できる。
Figure 2009204732
さらに、式(15)は、式(16)のように変形することができる。
Figure 2009204732
式(16)の前半部分は式(13)と同じであり、後半部分は原表記Hに対して定数となる。
Figure 2009204732
したがって、式(13)を原表記Hに対する読みYのスコアとして構わない。Swebの算出にあたって、対数値の引数(Fweb(Y,H))が0とならないように補正し、式(13)を導出している。
例えば、式(13)の定数αの値を0.5とした場合について、「Gospellers」を例に、各読み候補の評価値を計算した場合を図9に示す。図9(a)は、読み確率記憶部107をもとに得られた読み候補であり、「ガスペラーズ」、「ガスプレルス」、「ガスペラース」の順でスコアが大きい。図9(b)は、現表記と各読み候補とを検索キーワードとして文書検索を行った場合の検索結果を示す。検索キーワードを「Gospellers+ガスペラーズ」、「Gospellers+ガスペラース」、「Gospellers+ガスプレルス」とした場合に得られた検索文書数を表したものである。さらに、図9(c)は、式(13)に基づいて算出された評価値の例を示す。読み候補として「ガスペラーズ」、「ガスペラース」、「ガスプレルス」の順で評価値が大きい。この結果、読み選択部1603は、評価値の最も大きい「ガスペラーズ」を未登録語「Gospellers」の読みとして選択する。
新規登録部1604は、このようにして読み選択部1603で選択された読みを原表記とともに音声認識辞書103に登録する(ステップS4d)。
以上述べたように上記実施形態では、未登録語抽出部105は、入力された文書から音声認識辞書103に存在しない未登録語を抽出する。読み確率記憶部107は、読みと表記及びその読みから表記への条件付確率を対応付けた第1のテーブル1701と、読みとその出現確率とを対応付けた第2のテーブル1702とを記憶する。読み推定部106の読み候補生成部1601は、上記読み確率記憶部107に記憶された第1のテーブル1701及び第2のテーブル1702を用いて未登録語抽出部105で抽出された未登録語の表記に対応する条件付確率が最大となる読み候補を生成する。文書検索部1602は、読み候補と未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む文書数を求める。この文書数等を用いて読み選択部1603は読み候補から未登録語の読みを選択する。
したがって上記実施形態によれば、文書から未登録語を抽出して、その読みを高い精度で推定して音声認識辞書に登録することが可能となる。これにより、人名や商品名など日々新しい語が発生しても、それら新規語彙に自動的に対応可能な音声認識装置を実現することができる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
以上のように、本発明にかかる自然言語を処理する装置、方法およびプログラムは、統計的言語モデルに基づいて読み候補を生成し、原表記と読み候補とのアンド検索を文書検索によって検証することによって対応付けの妥当性を検証することにより、適切な読みを推定することができ、音声認識辞書の未登録語の解消に効果を発揮する。
本発明に係る音声認識装置の一実施形態を示す機能ブロック図。 読み推定部の内部構成を示すブロック図。 未登録語抽出部の処理の手順とその内容を示すフローチャート。 読み推定部の処理の手順とその内容を示すフローチャート。 第1のテーブルに格納される読みから表記への条件付確率の一例を示す図。 第2のテーブルに格納される読みの出現確率の一例を示す図。 ビタビアルゴリズムで仮想的に生成されるラティス構造の一例を示す図。 図7における各リンクに対する読みから表記への条件付確率値を示す図。 読み推定部における中間データならびに処理結果の一例を示す図。
符号の説明
101・・・音声入力部
102・・・音声認識部
103・・・音声認識辞書
104・・・文書入力部
105・・・未登録語抽出部
106・・・読み推定部
107・・・読み確率記憶部
108・・・制御部
109・・・Webサーバ
NW・・・通信ネットワーク
1601・・・読み候補生成部
1602・・・文書検索部
1603・・・読み選択部
1604・・・新規登録部
1701・・・第1のテーブル
1702・・・第2のテーブル

Claims (6)

  1. 登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置であって、
    第1の文書を入力する文書入力部と、
    前記第1の文書から前記音声認識辞書に存在しない未登録語を抽出する抽出部と、
    読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、前記読みとその出現確率とを対応付けた第2のテーブルを記憶する記憶部と、
    前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する読みの条件付確率が最大となる読み候補を生成する生成部と、
    前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求める検索部と、
    前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択する選択部と、
    前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録する登録部と
    を具備することを特徴とする音声認識装置。
  2. 前記生成部は、前記未登録語の表記を部分文字列に分解し、前記第1のテーブルから読み出した各部分文字列に対応する読みから表記への条件付確率と、前記第2のテーブルから読み出した各部分文字列に対応する出現確率とを用いて、前記読み候補に対応するスコアを求めることを特徴とする請求項1記載の音声認識装置。
  3. 前記選択部は、前記スコアと前記第2の文書の数とを用いて前記読み候補から前記未登録語の読みを選択することをさらに特徴とする請求項2記載の音声認識装置。
  4. 前記検索部は、通信ネットワーク上の文書群に対して前記文書検索を行うことを特徴とする請求項1記載の音声認識装置。
  5. 登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置に用いられ、
    第1の文書を入力するステップと、
    前記第1の文書から未登録語を抽出するステップと、
    読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルを記憶するステップと、
    前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する条件付確率が最大となる読み候補を生成するステップと、
    前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求めるステップと、
    前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択するステップと、
    前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録するステップと
    を具備することを特徴とする音声認識辞書作成方法。
  6. 登録語の表記とその読みとが対応付けられた音声認識辞書を用いてユーザの発話する音声を認識する装置を制御するプログラムであって、
    コンピュータに、
    第1の文書を入力する処理と、
    前記第1の文書から未登録語を抽出する処理と、
    読みと表記及び前記読みから表記への条件付確率を対応付けた第1のテーブルと、読みとその出現確率とを対応付けた第2のテーブルを記憶する処理と、
    前記第1のテーブル及び第2のテーブルを用いて前記未登録語の表記に対応する条件付確率が最大となる読み候補を生成する処理と、
    前記読み候補と前記未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む第2の文書の数を求める処理と、
    前記第2の文書の数に基づいて前記読み候補から前記未登録語の読みを選択する処理と、
    前記未登録語と選択された読みとを対応付けて前記音声認識辞書に登録する処理と
    を実行させることを特徴とする音声認識辞書作成プログラム。
JP2008044902A 2008-02-26 2008-02-26 音声認識装置、音声認識辞書作成方法およびプログラム Withdrawn JP2009204732A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008044902A JP2009204732A (ja) 2008-02-26 2008-02-26 音声認識装置、音声認識辞書作成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008044902A JP2009204732A (ja) 2008-02-26 2008-02-26 音声認識装置、音声認識辞書作成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2009204732A true JP2009204732A (ja) 2009-09-10

Family

ID=41147094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008044902A Withdrawn JP2009204732A (ja) 2008-02-26 2008-02-26 音声認識装置、音声認識辞書作成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2009204732A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
CN107958668A (zh) * 2017-12-15 2018-04-24 中广热点云科技有限公司 智能电视的声控选播方法、声控选播系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138126A (ja) * 2014-01-22 2015-07-30 富士通株式会社 音声辞書作成装置、音声辞書作成方法および音声辞書作成プログラム
CN107958668A (zh) * 2017-12-15 2018-04-24 中广热点云科技有限公司 智能电视的声控选播方法、声控选播系统
CN107958668B (zh) * 2017-12-15 2022-04-19 中广热点云科技有限公司 智能电视的声控选播方法、声控选播系统

Similar Documents

Publication Publication Date Title
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US20140278372A1 (en) Ambient sound retrieving device and ambient sound retrieving method
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8620658B2 (en) Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US9564122B2 (en) Language model adaptation based on filtered data
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
JP2017513047A (ja) 音声認識における発音予測
WO2013006215A1 (en) Method and apparatus of confidence measure calculation
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP4987682B2 (ja) 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2011113570A (ja) 音声検索装置と音声検索方法
JP2012018201A (ja) テキスト補正方法及び認識方法
JP5723711B2 (ja) 音声認識装置および音声認識プログラム
Deekshitha et al. Multilingual spoken term detection: a review
Bai et al. Syllable-based Chinese text/spoken document retrieval using text/speech queries
JP2009163358A (ja) 情報処理装置、情報処理方法、プログラムおよび音声チャットシステム
JP2009204732A (ja) 音声認識装置、音声認識辞書作成方法およびプログラム
JP5696638B2 (ja) 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム
JP2004184951A (ja) クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2012255867A (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110510