JP2009150988A

JP2009150988A - 音声認識辞書作成装置

Info

Publication number: JP2009150988A
Application number: JP2007327300A
Authority: JP
Inventors: Hiroyuki Hoshino; 博之星野; Takakatsu Yoshimura; 貴克吉村
Original assignee: Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc
Priority date: 2007-12-19
Filing date: 2007-12-19
Publication date: 2009-07-09

Abstract

【課題】登録する単語を適量に押さえ、かつ、カバー率が高く汎用性のある音声認識辞書作成装置を提供する。
【解決手段】音声認識辞書作成装置は、入力文に形態素解析及び係り受け解析を行う言語解析部１１と、前記言語解析部１１により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出部１２と、前記名詞抽出部１２により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理部１３と、前記統合処理部１３により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積する音声認識辞書１５と、前記統合処理部１３により統合された名詞の読みと頻度とを前記音声認識辞書１５に登録するデータ登録部１４と、を備えている。
【選択図】図１

Description

本発明は、音声で単語を入力するシステムのための辞書を作成する装置に関する。

カーナビゲーション・システムなど音声認識のための辞書を自動構築する様々の技術が提案されている。このような技術として、例えば、ｗｅｂ上の検索エンジンなどのログ情報を使って音声認識辞書を自動構築する音声認識辞書構築装置（例えば、特許文献１参照。）が知られている。

また、追加したい単語が含まれるフリーフォーマットで記述された文書ファイルを読み込み、形態素解析などを行って抽出した単語から未登録の単語を選択して音声認識辞書に登録する未知語登録装置（例えば、特許文献２参照。）も知られている。

更に、音声認識を使う目的に合った文書ファイルを読み込み、形態素解析などを行って音声認識辞書にある単語を抽出し、単語と単語の関係を学習してその学習結果を登録する単語情報学習装置（例えば、特許文献３参照。）も知られている。
特開２００３−２９５８８５号公報特開２００３−３１６３７６号公報特開２００３−３４５３８２号公報

しかしながら、特許文献１の音声認識辞書構築装置では、特定の単語、例えば「行く」という動詞に注目して、その目的地から「行き先」の名詞を抽出するという考えはない。従って、不特定の単語を対象とするために辞書が膨大になる。登録語の対象となる地域を特定地域あるいは現在位置周辺に限定すると辞書の大きさを抑えることができるが、辞書の汎用性を喪失するという問題点がある。

また、特許文献２の未知語登録装置や特許文献３の単語情報学習装置は、一般ユーザ向けの汎用辞書を作成する手法ではないという問題点がある。

本発明は、上記問題点を解決するために成されたものであり、登録する単語を適量に押さえ、かつ、カバー率が高く汎用性のある音声認識辞書作成装置を提供することを目的とする。

上記目的を達成するために、請求項１記載の音声認識辞書作成装置は、入力文に形態素解析及び係り受け解析を行う言語解析手段と、前記言語解析手段により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出手段と、前記名詞抽出手段により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理手段と、前記統合処理手段により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積するデータ蓄積手段と、前記統合処理手段により統合された名詞の読みと頻度とを前記データ蓄積手段に登録するデータ登録手段と、を備えている。

請求項１記載の発明によれば、システムのリソース制限などで辞書に入れる単語数が限られる場合、特定の動詞に注目して名詞を抽出することにより、登録する単語数を適切な量に抑えた音声認識辞書を作成できる。

請求項２記載の音声認識辞書作成装置は、請求項１記載の音声認識辞書作成装置において、前記データ登録手段は、前記統合処理手段により統合された名詞の読みと頻度とを頻度が高い順に登録する。

請求項２記載の発明によれば、使われる頻度が高い順に単語を登録することにより、カバー率の高い音声認識辞書を作成できる。

以上説明したように、本発明によれば、登録する単語を適量に押さえ、かつ、カバー率の高い音声認識辞書作成装置作成できるという効果が得られる。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。なお、本発明は、以下の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。

図１は、本発明に係る音声認識辞書作成装置の主要構成を示すブロック図である。同図に示すように、本実施の形態に係る音声認識辞書作成装置は、入力文の形態素解析及び係り受け解析を行う言語解析部１１と、特定の動詞と特定の関係を有する名詞を抽出する名詞抽出部１２と、抽出され名詞及び該名詞と読みが同一の名詞の抽出された頻度を統合する統合処理部１３と、名詞の読みとその頻度を蓄積する音声認識辞書１５と、音声認識辞書１５に名詞の読みとその頻度を登録するデータ登録部１４と、を備えている。

以上のように構成された音声認識辞書作成装置は、大量の入力文を解析することにより音声認識辞書１５に蓄積すべき単語とその頻度を抽出し、これを登録する。

図２は、音声認識辞書作成装置の作用の流れを示すフローチャートである。本実施の形態では、カーナビゲーション・システムの音声入力で、行き先を「東京タワーに行きたいのですが」のような自由な言い方ではなく、「東京タワー」のように単語で入力するシステムのための行き先の音声入力辞書を作成する場合を例とする。

ステップ１００では、言語解析部１１が、入力文の形態素解析を行う。入力文はインターネット上などにある大量のテキストデータ（例えば、５０００万文）を利用する。形態素解析では、入力文の文字列を単語に分解し、各単語の品詞を特定する。例えば、入力文が「昨日東京に行った」である場合、形態素解析の結果、図３に示すように「昨日」、「東京」、「に」、「行っ」、「た」と単語に分解される。また、同時に各単語の品詞が特定される。

ステップ１１０では、言語解析部１１が、分解された各単語から構成される文節に対して係り受け解析を行う。係り受け解析では、文節の係り受け（修飾関係）を解析する。係り受け解析の結果、図３に示すように「昨日」及び「東京に」は「行った」に係っている。

ステップ１２０では、名詞抽出部１２が、入力文の解析結果から特定の動詞を含む文を抽出する。本実施の形態では、「行く」という特定の動詞を含む文を抽出するため、「行く」を含む場合はステップ１３０に進み、「行く」を含まない場合はステップ１００に戻って次の入力文に対してステップ１００からステップ１２０までの処理を繰り返す。上述の文は「行く」を含んでいるのでステップ１３０に進む。

ステップ１３０では、名詞抽出部１２が、特定の動詞の深層格が特定のものである名詞を入力文から抽出する。ここで、深層格とは、動詞が名詞概念との間に有する意味関係をいう。代表的な深層格としては、動作主（agent：動作を引き起こす主体）、対象（object）、道具（instrument）、経験者（experiencer：影響を受ける実体）、場所（location）、起点（source）、目標（goal）、時間（time）などがある（[http://www.ir.rikkyo.ac.jp~/tsuzuki/language2001.html]）。

本実施の形態では、「行く」という動詞の係り受け関係（〜へ、〜に、〜まで）から深層格が目標（goal）である名詞を抽出する。これにより、「行き先」と考えられる名詞が抽出される。名詞抽出部１２は、名詞を抽出すると同時に該名詞が抽出された頻度を計測する。上述の文の場合、名詞「東京」の頻度に“１”が加算される。

ステップ１４０では、統合処理部１３が、全ての入力文の解析を終了したか否かを判定する。終了したと判定したときにはステップ１５０に進み、終了していないと判定したときにはステップ１００に戻って、次の入力文に対してステップ１００からステップ１４０までの処理を繰り返す。

図４は、入力された５０００万文から上述のように「行き先」となる名詞を抽出し、「どこ」などの代名詞等を除いた結果（上位１０個）を示す。この「行き先」データは漢字かな混じりであるので、この段階では、読みが同じでも表記が異なる名詞は別のエントリとなっている。

ステップ１５０では、統合処理部１３が、抽出した各名詞に読みをふり、読みが同じ名詞が複数ある場合には、これらの読みが同じ複数の名詞のエントリと頻度とを統合する。例えば、図４の「学校」の場合、入力された文の中では、「がっこう」や「ガッコウ」と表記されている場合もあると考えられ、これらを読みが「がっこう」である名詞として１つに統合する。

図５は、読みが同じ名詞を統合した結果（上位１０個）を示す。図５では、図４の「学校」の他に読みが「がっこう」であるエントリ（頻度１０）が統合された結果が示されている。この名詞の「読み」と「頻度」の対が辞書に登録される最終形態となる。

最後に、ステップ１６０では、データ登録部１４が、名詞の読みと頻度を音声認識辞書１５に登録する。本実施の形態に係る音声認識辞書作成装置では全ての名詞の読みと頻度を登録しているが、例えば、頻度が幾つ以上あるいは頻度が上位何番目までなどのように、頻度が高いものに限定して登録してもよい。

以上のように、本実施の形態に係る音声認識辞書作成装置は、特定の動詞に限定してその動詞と特定の関係を有する名詞を登録するので、辞書の大きさを抑えながら汎用性を維持、かつ、カバー率の高い辞書を作成できる。更に、名詞の読みと頻度を登録しているので、システムのリソース制限などで辞書に入れる単語数が限られる場合、頻度が高い順に単語を登録することで辞書の大きさを適宜制限することができる。

本実施の形態に係る音声認識辞書作成装置により作成した辞書を用いることにより、「東京タワー」のように音声で単語を入力するシステムを構築できる。そのシステムでは、例えば、音声認識結果の第１候補とともに、認識候補上位１０個で最も頻度が高い単語を、認識候補の２番目として出力することができる。これにより、「あさくさ」と発声したときに、「あまくさ」が音声認識の第１候補で、「あさくさ」が上位１０個中にあって頻度が１０個中で最大だった場合、「あまくさ（頻度９）」と「あさくさ（頻度５２）」の両方を認識結果として出力できる。従って、単純に音声認識の上位２個を出力するよりも、有効なシステムになると考えられる。

また、本実施の形態では、「行く」という動詞に注目して、「行き先音声入力辞書」の作成手法について述べたが、同様にして、「食べる」という動詞に注目すると「食べたいメニュー音声入力辞書」、「買う」という動詞に注目すると「買い物音声入力辞書」が作成できる。

本発明に係る音声認識辞書作成装置の主要構成を示すブロック図である。本発明に係る音声認識辞書作成装置の作用の流れを示すフローチャートである。形態素解析及び係り受け解析の結果を示す図である。行き先名詞の抽出結果（上位１０個）を示す図である。行き先名詞の読みが同じものを統合した結果（上位１０個）を示す図である。

符号の説明

１１言語解析部
１２名詞抽出部
１３統合処理部
１４データ登録部
１５音声認識辞書

Claims

入力文に形態素解析及び係り受け解析を行う言語解析手段と、
前記言語解析手段により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出手段と、
前記名詞抽出手段により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理手段と、
前記統合処理手段により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積するデータ蓄積手段と、
前記統合処理手段により統合された名詞の読みと頻度とを前記データ蓄積手段に登録するデータ登録手段と、
を備えた音声認識辞書作成装置。
前記データ登録手段は、前記統合処理手段により統合された名詞の読みと頻度とを頻度が高い順に登録する請求項１記載の音声認識辞書作成装置。