JP2009150988A - 音声認識辞書作成装置 - Google Patents
音声認識辞書作成装置 Download PDFInfo
- Publication number
- JP2009150988A JP2009150988A JP2007327300A JP2007327300A JP2009150988A JP 2009150988 A JP2009150988 A JP 2009150988A JP 2007327300 A JP2007327300 A JP 2007327300A JP 2007327300 A JP2007327300 A JP 2007327300A JP 2009150988 A JP2009150988 A JP 2009150988A
- Authority
- JP
- Japan
- Prior art keywords
- noun
- frequency
- speech recognition
- reading
- recognition dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】登録する単語を適量に押さえ、かつ、カバー率が高く汎用性のある音声認識辞書作成装置を提供する。
【解決手段】音声認識辞書作成装置は、入力文に形態素解析及び係り受け解析を行う言語解析部11と、前記言語解析部11により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出部12と、前記名詞抽出部12により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理部13と、前記統合処理部13により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積する音声認識辞書15と、前記統合処理部13により統合された名詞の読みと頻度とを前記音声認識辞書15に登録するデータ登録部14と、を備えている。
【選択図】図1
【解決手段】音声認識辞書作成装置は、入力文に形態素解析及び係り受け解析を行う言語解析部11と、前記言語解析部11により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出部12と、前記名詞抽出部12により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理部13と、前記統合処理部13により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積する音声認識辞書15と、前記統合処理部13により統合された名詞の読みと頻度とを前記音声認識辞書15に登録するデータ登録部14と、を備えている。
【選択図】図1
Description
本発明は、音声で単語を入力するシステムのための辞書を作成する装置に関する。
カーナビゲーション・システムなど音声認識のための辞書を自動構築する様々の技術が提案されている。このような技術として、例えば、web上の検索エンジンなどのログ情報を使って音声認識辞書を自動構築する音声認識辞書構築装置(例えば、特許文献1参照。)が知られている。
また、追加したい単語が含まれるフリーフォーマットで記述された文書ファイルを読み込み、形態素解析などを行って抽出した単語から未登録の単語を選択して音声認識辞書に登録する未知語登録装置(例えば、特許文献2参照。)も知られている。
更に、音声認識を使う目的に合った文書ファイルを読み込み、形態素解析などを行って音声認識辞書にある単語を抽出し、単語と単語の関係を学習してその学習結果を登録する単語情報学習装置(例えば、特許文献3参照。)も知られている。
特開2003−295885号公報
特開2003−316376号公報
特開2003−345382号公報
しかしながら、特許文献1の音声認識辞書構築装置では、特定の単語、例えば「行く」という動詞に注目して、その目的地から「行き先」の名詞を抽出するという考えはない。従って、不特定の単語を対象とするために辞書が膨大になる。登録語の対象となる地域を特定地域あるいは現在位置周辺に限定すると辞書の大きさを抑えることができるが、辞書の汎用性を喪失するという問題点がある。
また、特許文献2の未知語登録装置や特許文献3の単語情報学習装置は、一般ユーザ向けの汎用辞書を作成する手法ではないという問題点がある。
本発明は、上記問題点を解決するために成されたものであり、登録する単語を適量に押さえ、かつ、カバー率が高く汎用性のある音声認識辞書作成装置を提供することを目的とする。
上記目的を達成するために、請求項1記載の音声認識辞書作成装置は、入力文に形態素解析及び係り受け解析を行う言語解析手段と、前記言語解析手段により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出手段と、前記名詞抽出手段により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理手段と、前記統合処理手段により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積するデータ蓄積手段と、前記統合処理手段により統合された名詞の読みと頻度とを前記データ蓄積手段に登録するデータ登録手段と、を備えている。
請求項1記載の発明によれば、システムのリソース制限などで辞書に入れる単語数が限られる場合、特定の動詞に注目して名詞を抽出することにより、登録する単語数を適切な量に抑えた音声認識辞書を作成できる。
請求項2記載の音声認識辞書作成装置は、請求項1記載の音声認識辞書作成装置において、前記データ登録手段は、前記統合処理手段により統合された名詞の読みと頻度とを頻度が高い順に登録する。
請求項2記載の発明によれば、使われる頻度が高い順に単語を登録することにより、カバー率の高い音声認識辞書を作成できる。
以上説明したように、本発明によれば、登録する単語を適量に押さえ、かつ、カバー率の高い音声認識辞書作成装置作成できるという効果が得られる。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。なお、本発明は、以下の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。
図1は、本発明に係る音声認識辞書作成装置の主要構成を示すブロック図である。同図に示すように、本実施の形態に係る音声認識辞書作成装置は、入力文の形態素解析及び係り受け解析を行う言語解析部11と、特定の動詞と特定の関係を有する名詞を抽出する名詞抽出部12と、抽出され名詞及び該名詞と読みが同一の名詞の抽出された頻度を統合する統合処理部13と、名詞の読みとその頻度を蓄積する音声認識辞書15と、音声認識辞書15に名詞の読みとその頻度を登録するデータ登録部14と、を備えている。
以上のように構成された音声認識辞書作成装置は、大量の入力文を解析することにより音声認識辞書15に蓄積すべき単語とその頻度を抽出し、これを登録する。
図2は、音声認識辞書作成装置の作用の流れを示すフローチャートである。本実施の形態では、カーナビゲーション・システムの音声入力で、行き先を「東京タワーに行きたいのですが」のような自由な言い方ではなく、「東京タワー」のように単語で入力するシステムのための行き先の音声入力辞書を作成する場合を例とする。
ステップ100では、言語解析部11が、入力文の形態素解析を行う。入力文はインターネット上などにある大量のテキストデータ(例えば、5000万文)を利用する。形態素解析では、入力文の文字列を単語に分解し、各単語の品詞を特定する。例えば、入力文が「昨日東京に行った」である場合、形態素解析の結果、図3に示すように「昨日」、「東京」、「に」、「行っ」、「た」と単語に分解される。また、同時に各単語の品詞が特定される。
ステップ110では、言語解析部11が、分解された各単語から構成される文節に対して係り受け解析を行う。係り受け解析では、文節の係り受け(修飾関係)を解析する。係り受け解析の結果、図3に示すように「昨日」及び「東京に」は「行った」に係っている。
ステップ120では、名詞抽出部12が、入力文の解析結果から特定の動詞を含む文を抽出する。本実施の形態では、「行く」という特定の動詞を含む文を抽出するため、「行く」を含む場合はステップ130に進み、「行く」を含まない場合はステップ100に戻って次の入力文に対してステップ100からステップ120までの処理を繰り返す。上述の文は「行く」を含んでいるのでステップ130に進む。
ステップ130では、名詞抽出部12が、特定の動詞の深層格が特定のものである名詞を入力文から抽出する。ここで、深層格とは、動詞が名詞概念との間に有する意味関係をいう。代表的な深層格としては、動作主(agent:動作を引き起こす主体)、対象(object)、道具(instrument)、経験者(experiencer:影響を受ける実体)、場所(location)、起点(source)、目標(goal)、時間(time)などがある([http://www.ir.rikkyo.ac.jp~/tsuzuki/language2001.html])。
本実施の形態では、「行く」という動詞の係り受け関係(〜へ、〜に、〜まで)から深層格が目標(goal)である名詞を抽出する。これにより、「行き先」と考えられる名詞が抽出される。名詞抽出部12は、名詞を抽出すると同時に該名詞が抽出された頻度を計測する。上述の文の場合、名詞「東京」の頻度に“1”が加算される。
ステップ140では、統合処理部13が、全ての入力文の解析を終了したか否かを判定する。終了したと判定したときにはステップ150に進み、終了していないと判定したときにはステップ100に戻って、次の入力文に対してステップ100からステップ140までの処理を繰り返す。
図4は、入力された5000万文から上述のように「行き先」となる名詞を抽出し、「どこ」などの代名詞等を除いた結果(上位10個)を示す。この「行き先」データは漢字かな混じりであるので、この段階では、読みが同じでも表記が異なる名詞は別のエントリとなっている。
ステップ150では、統合処理部13が、抽出した各名詞に読みをふり、読みが同じ名詞が複数ある場合には、これらの読みが同じ複数の名詞のエントリと頻度とを統合する。例えば、図4の「学校」の場合、入力された文の中では、「がっこう」や「ガッコウ」と表記されている場合もあると考えられ、これらを読みが「がっこう」である名詞として1つに統合する。
図5は、読みが同じ名詞を統合した結果(上位10個)を示す。図5では、図4の「学校」の他に読みが「がっこう」であるエントリ(頻度10)が統合された結果が示されている。この名詞の「読み」と「頻度」の対が辞書に登録される最終形態となる。
最後に、ステップ160では、データ登録部14が、名詞の読みと頻度を音声認識辞書15に登録する。本実施の形態に係る音声認識辞書作成装置では全ての名詞の読みと頻度を登録しているが、例えば、頻度が幾つ以上あるいは頻度が上位何番目までなどのように、頻度が高いものに限定して登録してもよい。
以上のように、本実施の形態に係る音声認識辞書作成装置は、特定の動詞に限定してその動詞と特定の関係を有する名詞を登録するので、辞書の大きさを抑えながら汎用性を維持、かつ、カバー率の高い辞書を作成できる。更に、名詞の読みと頻度を登録しているので、システムのリソース制限などで辞書に入れる単語数が限られる場合、頻度が高い順に単語を登録することで辞書の大きさを適宜制限することができる。
本実施の形態に係る音声認識辞書作成装置により作成した辞書を用いることにより、「東京タワー」のように音声で単語を入力するシステムを構築できる。そのシステムでは、例えば、音声認識結果の第1候補とともに、認識候補上位10個で最も頻度が高い単語を、認識候補の2番目として出力することができる。これにより、「あさくさ」と発声したときに、「あまくさ」が音声認識の第1候補で、「あさくさ」が上位10個中にあって頻度が10個中で最大だった場合、「あまくさ(頻度9)」と「あさくさ(頻度52)」の両方を認識結果として出力できる。従って、単純に音声認識の上位2個を出力するよりも、有効なシステムになると考えられる。
また、本実施の形態では、「行く」という動詞に注目して、「行き先音声入力辞書」の作成手法について述べたが、同様にして、「食べる」という動詞に注目すると「食べたいメニュー音声入力辞書」、「買う」という動詞に注目すると「買い物音声入力辞書」が作成できる。
11 言語解析部
12 名詞抽出部
13 統合処理部
14 データ登録部
15 音声認識辞書
12 名詞抽出部
13 統合処理部
14 データ登録部
15 音声認識辞書
Claims (2)
- 入力文に形態素解析及び係り受け解析を行う言語解析手段と、
前記言語解析手段により解析された特定の動詞を抽出し、該動詞の深層格が特定のものとなる名詞を前記入力文から抽出すると共に、該名詞が抽出された頻度を計測する名詞抽出手段と、
前記名詞抽出手段により抽出された名詞の読みをふり、読みが同一の名詞が複数ある場合には各々の名詞が抽出された頻度を統合する統合処理手段と、
前記統合処理手段により統合された前記名詞の読みとその読みの名詞が抽出された頻度とを対で蓄積するデータ蓄積手段と、
前記統合処理手段により統合された名詞の読みと頻度とを前記データ蓄積手段に登録するデータ登録手段と、
を備えた音声認識辞書作成装置。 - 前記データ登録手段は、前記統合処理手段により統合された名詞の読みと頻度とを頻度が高い順に登録する請求項1記載の音声認識辞書作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007327300A JP2009150988A (ja) | 2007-12-19 | 2007-12-19 | 音声認識辞書作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007327300A JP2009150988A (ja) | 2007-12-19 | 2007-12-19 | 音声認識辞書作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009150988A true JP2009150988A (ja) | 2009-07-09 |
Family
ID=40920206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007327300A Pending JP2009150988A (ja) | 2007-12-19 | 2007-12-19 | 音声認識辞書作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009150988A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180646A (ja) * | 2010-02-26 | 2011-09-15 | Nec Corp | 情報処理装置、通信端末、興味情報提供方法および興味情報提供プログラム |
JP2015038781A (ja) * | 2014-11-25 | 2015-02-26 | レノボ・イノベーションズ・リミテッド(香港) | 情報処理装置、興味情報提供方法および興味情報提供プログラム |
JP2020201363A (ja) * | 2019-06-09 | 2020-12-17 | 株式会社Tbsテレビ | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム |
-
2007
- 2007-12-19 JP JP2007327300A patent/JP2009150988A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180646A (ja) * | 2010-02-26 | 2011-09-15 | Nec Corp | 情報処理装置、通信端末、興味情報提供方法および興味情報提供プログラム |
JP2015038781A (ja) * | 2014-11-25 | 2015-02-26 | レノボ・イノベーションズ・リミテッド(香港) | 情報処理装置、興味情報提供方法および興味情報提供プログラム |
JP2020201363A (ja) * | 2019-06-09 | 2020-12-17 | 株式会社Tbsテレビ | 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Comparison of the Impact of Word Segmentation on Name Tagging for Chinese and Japanese. | |
JP5362095B2 (ja) | インプットメソッドエディタ | |
Salloum et al. | Elissa: A dialectal to standard Arabic machine translation system | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
KR100481598B1 (ko) | 복합 형태소 분석 장치 및 방법 | |
Jayaweera et al. | Hidden markov model based part of speech tagger for sinhala language | |
Aliwy | Tokenization as preprocessing for Arabic tagging system | |
Ablimit et al. | A multilingual language processing tool for Uyghur, Kazak and Kirghiz | |
JP2009150988A (ja) | 音声認識辞書作成装置 | |
Okhovvat et al. | A hidden Markov model for Persian part-of-speech tagging | |
Albogamy et al. | Unsupervised stemmer for Arabic tweets | |
Yu et al. | Identification of Code‐Switched Sentences and Words Using Language Modeling Approaches | |
Godard | Unsupervised word discovery for computational language documentation | |
Oudah et al. | Person name recognition using the hybrid approach | |
Elsheikh | Timeline of the development of Arabic PoS taggers and Morphological analysers | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
Lee et al. | Syllable-based Malay word stemmer | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
Krishnapriya et al. | Design of a POS tagger using conditional random fields for Malayalam | |
Oudah et al. | Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition | |
Agbeyangi et al. | Morphological analysis of Standard Yorùbá nouns | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP5633844B2 (ja) | 言い換え関係集合取得装置、言い換え関係集合取得方法、及びプログラム | |
KR101604553B1 (ko) | 비교사 분할 및 병합에 의한 의사형태소 음성 인식 단위 생성 장치 및 방법 |