JP2001051992A - 日本語統計データ作成装置および方法、並びにディクテーションシステム - Google Patents

日本語統計データ作成装置および方法、並びにディクテーションシステム

Info

Publication number
JP2001051992A
JP2001051992A JP11222560A JP22256099A JP2001051992A JP 2001051992 A JP2001051992 A JP 2001051992A JP 11222560 A JP11222560 A JP 11222560A JP 22256099 A JP22256099 A JP 22256099A JP 2001051992 A JP2001051992 A JP 2001051992A
Authority
JP
Japan
Prior art keywords
word
japanese
reading
speech
statistical data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11222560A
Other languages
English (en)
Inventor
Masato Yajima
真人 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11222560A priority Critical patent/JP2001051992A/ja
Publication of JP2001051992A publication Critical patent/JP2001051992A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】複数の読みのある単語の場合、文章中の近接す
る他の単語から当該複数の読みのある単語の読みが確定
できるなら、その読みのみ出現回数を数える。 【解決手段】日本語データベース2から取得される日本
語文を単語分割部13にて読みと表記と品詞の組からな
る単語に分割する。読み選択部17では、分割された単
語に複数の読みが存在する場合、それぞれの読みと表記
と品詞の組の単語により関連語チェック部16にて関連
語辞書15をチェックさせ、当該単語の関連語が存在す
る場合、その関連語が当該単語と同一文中に含まれてい
るか否かを調べさせる。読み選択部17は、関連語が同
一文中に含まれている場合は、その関連語に対応した読
みと表記と品詞の組の単語のみを選択し、それ以外の場
合は、すべて選択し、その読みと表記と品詞の組の単語
について、統計データ作成部14により単語の出現回数
および隣接する単語の並びの出現回数に数えさせる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザが発声した
言葉を音声認識してテキストに変換するディクテーショ
ンシステムに代表される認識システムにおける、日本語
として隣接しやすい単語の並びの統計値に基づく認識候
補の順位付けに用いて好適な日本語統計データを作成す
る日本語統計データ作成装置および方法、並びにディク
テーションシステムに関する。
【0002】
【従来の技術】音声認識技術の進歩に伴い、テキスト入
力を音声で行なうディクテーションシステムが開発され
るようになってきた。ディクテーションシステムでは従
来キーボードなどから入力していたテキストを音声によ
って入力する。
【0003】現状のディクテーションシステムでは、音
声認識処理においては入力された音声をデジタル変換し
て音素列とし、認識単語辞書に登録された単語の音韻列
との照合を行ない、音声列として類似しているものから
順位付けを行なう。この際に認識の精度を向上させるた
め、日本語として隣接しやすい単語の並びの確率値をも
った言語モデルを利用して、次に来やすい単語の出現確
率から算出したスコアによって順位付けを行ない、前記
音声列として類似しているものとの総合評価を行なうこ
とで、最終的な順位付けを行なう。
【0004】言語モデルを作成するためには、通常、大
規模な日本語コーパスを利用する。例えば情報処理学会
研究報告[西村雅史ほか,単語を認識単位とした日本語
ディクテーションシステム,97-SLP-15,pp.27-34(1997-
02)]では新聞記事データから統計的に言語モデルを作
成している。日本語コーパスは様々な内容の文もしくは
句の集積であり、これを大規模に集めることにより日本
語の単語と単語の接続の仕方、並び方などのデータを抽
出することができる。大規模日本語コーパスを形態素解
析により単語に分割し、単語の出現回数、互いに隣接す
る複数の単語の並びの出現回数を各々計算して、コーパ
ス全体に対しての出現確率をそれぞれ算出する。これら
の統計値を音声認識用辞書に登録された単語に対してデ
ータとして用意したものが言語モデルである。
【0005】音声認識では音声を認識してひらがなに変
換した段階では、どのような表記かは分らない。一方、
言語モデルの統計値は、単語の読み・表記・品詞などが
異なる見出しごとに集計される。このため、ある単語に
複数の読みがある場合は、読みが違う別々の単語として
統計値を算出する必要がある。しかしある単語に複数の
読み方があっても、文中ではいずれか1つの読みしか認
められないため、実際にはどの読みの単語として数える
かは、文章の意味を調べなければ決まらないという欠点
があった。
【0006】
【発明が解決しようとする課題】上記のように従来の音
声認識システムの言語モデル作成においては、コーパス
を形態素解析して得られた単語に複数の読みがある場合
は、いずれの読みの単語として数えるかを決定できない
ため、すべての読みを持つ単語として数えるとか、形態
素解析に用いた単語辞書上の読みの並びで決まる代表的
な読みを持つ単語として数え上げるなど、統計データと
して不正確な部分を残していた。
【0007】そこで本発明は上記の決定を考慮してなさ
れたもので、複数の読みのある単語の場合、文章中の近
接する他の単語から当該複数の読みのある単語の読みを
一意に確定できる場合は、この読みの単語として出現回
数を数え、また一意に確定できない場合は複数の読みそ
れぞれに対して単語の出現回数を数えることで、日本語
コーパスから得られる最大限の統計値をより正確に算出
して言語モデルの統計データとすることを目的とする。
【0008】
【課題を解決するための手段】本発明は、日本語データ
ベースに格納されている日本語コーパスに基づいて、読
みと表記と品詞の組からなる単語の出現回数および隣接
する単語の並びの出現回数を含む日本語統計データを作
成する日本語統計データ作成装置において、上記日本語
データベースから取得される日本語文を形態素解析して
読みと表記と品詞の組からなる単語に分割する単語分割
手段と、読みと表記と品詞の組が異なる単語毎に、その
単語に対して同一文中に近接して用いられる可能性の高
い関連語を記述した関連語辞書と、上記単語分割手段に
よって分割された単語に複数の読みが存在する場合、そ
れぞれの読みと表記と品詞の組の単語により上記関連語
辞書を検索し、当該単語の関連語が取得できたならば、
この関連語が当該単語と同一日本語文中に含まれている
か否かを調べる関連語チェック手段と、上記単語分割手
段により分割された単語に複数の読みが存在し、且つ、
それぞれの読みと表記と品詞の組からなる単語のうち、
その関連語が同一文中に含まれている単語が存在する場
合には、該当する読みと表記と品詞の組の単語のみを選
択し、それ以外の場合には、すべての読みと表記と品詞
の組からなる単語を選択する読み選択手段と、上記日本
語コーパスから、読みと表記と品詞の組からなる単語の
出現回数および隣接する単語の並びの出現回数を計算す
る統計データ作成手段であって、上記読み選択手段によ
り選択された読みと表記と品詞の組の単語について、単
語の出現回数および隣接する単語の並びの出現回数に数
える統計データ作成手段とを備えたことを特徴とする。
【0009】このように本発明においては、日本語コー
パスを形態素解析して単語分割し、単語の出現回数と隣
接する複数の単語の並びの出現回数を計算する際に、単
語の読みを確定するために、表記と読みの組からなる単
語に対して同一文中で近接して用いられる可能性が高い
関連語を記述した関連語辞書を持ち、複数の読みがある
単語の場合は、それぞれの読みと表記と品詞の組の単語
が関連語辞書にあるかどうかチェックし、それに対応す
る関連語が同一文中に含まれている場合は、その読みが
文中で使用されているものとして、その読みを確定し、
その読みと表記と品詞の単語のみの出現回数を数え、同
一文中に含まれていない場合は複数の読みすべてについ
て単語の出現回数を数えることにより、複数の読みのあ
る単語の統計データをより正確に算出することができ
る。
【0010】これにより、入力音声を認識して順位付け
された複数の認識候補を取得する音声認識手段を備えた
ディクテーションシステムに、上記の日本語統計データ
作成装置によって作成された日本語統計データを格納し
た日本語統計データ記憶手段と、上記音声認識手段によ
り取得された認識候補に対し、当該音声認識手段による
順位付けとは無関係に、上記日本語統計データ記憶手段
に格納されている日本語統計データの示す読みと表記と
品詞の組からなる単語の出現回数および隣接する単語の
並びの出現回数をもとに順位付けを行ない、上記音声認
識手段による順位付け結果と自身の順位付け結果とに基
づいて認識候補の最終的な順位付けを行なう日本語統計
処理を設けた構成とすることにより、音声認識によって
得られた認識単語候補を上記日本語統計データ、つまり
読みと表記と品詞の組からなる単語の出現回数および隣
接する単語の並びの出現回数を持つ言語モデルによっ
て、より正しく順位付けすることが可能となり、音声認
識の精度向上につながる。
【0011】特に、上記ディクテーションシステムに、
日本語文を含む各種文書データが格納される文書記憶手
段と、この文書記憶手段内の任意の日本語文を選択指定
可能な操作入力手段とを設けると共に、上記日本語統計
データ作成装置と同様の構成の日本語統計データ作成装
置、即ち上記操作入力手段により指定された文書記憶手
段内の日本語文を形態素解析して読みと表記と品詞の組
からなる単語に分割する単語分割手段と、読みと表記と
品詞の組が異なる単語毎に、その単語に対して同一文中
に近接して用いられる可能性の高い関連語を記述した関
連語辞書と、上記単語分割手段によって分割された単語
に複数の読みが存在する場合、それぞれの読みと表記と
品詞の組の単語により上記関連語辞書を検索し、当該単
語の関連語が取得できたならば、この関連語が当該単語
と同一日本語文中に含まれているか否かを調べる関連語
チェック手段と、上記単語分割手段により分割された単
語に複数の読みが存在し、且つ、それぞれの読みと表記
と品詞の組からなる単語のうち、その関連語が同一文中
に含まれている単語が存在する場合には、該当する読み
と表記と品詞の組の単語のみを選択し、それ以外の場合
には、すべての読みと表記と品詞の組からなる単語を選
択する読み選択手段と、この読み選択手段により選択さ
れた読みと表記と品詞の組の単語について、上記日本語
統計データ記憶手段に格納されている日本語統計データ
中の、単語の出現回数および隣接する単語の並びの出現
回数に数える統計データ作成手段とを備えた日本語統計
データ作成装置を設けるならば、日本語統計データにユ
ーザが使用する日本語文を反映させて、当該日本語統計
データを、ユーザの扱う日本語文での各単語の出現回数
がより正しく反映されたものに近付けることができる。
【0012】なお、以上の装置に係る本発明は装置(日
本語統計データ作成方法)に係る発明としても成立す
る。また、本発明は、コンピュータに当該発明に相当す
る手順を実行させるための(或いはコンピュータを当該
発明に相当する手段として機能させるための、或いはコ
ンピュータに当該発明に相当する機能を実現させるため
の)日本語統計データ作成プログラムを記録した記録媒
体(コンピュータ読み取り可能な記録媒体)としても成
立する。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につき
図面を参照して説明する。
【0014】[第1の実施形態]図1は本発明の第1の
実施形態に係る日本語統計データ作成装置の全体構成を
示すブロック図である。
【0015】図1中の日本語統計データ作成装置1は、
例えばパーソナルコンピュータなどの情報処理装置を用
い、当該情報処理装置に所定のプログラム(日本語統計
データ作成プログラム)を読み込み実行させることによ
り実現される。このプログラムが、CD−ROM等の記
録媒体から情報処理装置(の主記憶上)にロードされて
使用されるものであっても、通信媒体を介してダウンロ
ードされて使用されるものであっても構わない。
【0016】日本語統計データ作成装置1は、統計デー
タ作成制御部11と、単語辞書12と、単語分割部13
と、統計データ作成部14と、関連語辞書15と、関連
語チェック部16と、読み選択部17とから構成され
る。
【0017】日本語統計データ作成装置1には、日本語
の文章や句などを集めた大規模な日本語コーパスから構
成されているデータベース(日本語データベース)2
と、手動による入力操作に用いられる操作入力部3と、
日本語統計データ作成装置1により作成された日本語統
計データが保存される統計データ記憶部4とが付加され
ている。日本語データベース2及び統計データ記憶部4
は、例えばパーソナルコンピュータに代表される情報処
理装置の持つ(ハードディスク装置等の)2次記憶装置
(に装着される記録媒体)上に置かれる。操作入力部3
は、上記情報処理装置に用意されているキーボード、マ
ウス等の入力手段である。
【0018】統計データ作成制御部11は、日本語統計
データ作成処理を実行するための装置各部(単語分割部
13、統計データ作成部14、関連語チェック部16、
読み選択部17)の制御を行なう。
【0019】単語辞書12は、各種単語について、読み
と表記と品詞からなる単語辞書情報が予め登録された辞
書である。単語分割部13は、日本語データベース2か
ら入力される日本語文(もしくは句)を対象とする形態
素解析を行ない、読みと表記と品詞の組からなる単語に
分割する。
【0020】統計データ作成部14は、読みと表記と品
詞の組からなる単語の出現回数と、互いに隣接する単語
の並び(ここでは、2つの単語の並び、つまり単語組)
の出現回数を計算する。
【0021】関連語辞書15は、読みと表記と品詞の組
が異なる単語毎に、その単語に対して同一文中に近接し
て用いられる可能性の高い関連語を保持(記述)した辞
書である。関連語チェック部16は、単語分割部13に
より分割された単語に複数の読みが存在する場合、それ
ぞれの読みと表記と品詞の組の単語について、同一文中
に近接して現れる可能性の高い関連語が含まれるかどう
かをチェックする。
【0022】読み選択部17は、単語分割部13により
分割された単語のうちの、複数の読みをもつ単語に対し
て、関連語チェック部16によって同一文中に関連語が
含まれていると判定された場合に、その読みと表記と品
詞の組の単語について統計データ作成部14により統計
データを算出させ、含まれていない場合には、すべての
読みと表記と品詞の組の単語について統計データ作成部
14により統計データを算出させる。
【0023】次に、図1の構成の動作について、その概
要を説明する。
【0024】まず、操作入力部3からの指示入力に従っ
て日本語統計データ作成装置1が起動されると、統計デ
ータ作成制御部11の制御により日本語データベース2
から、日本語文(もしくは句)が1文取り出され、単語
分割部13に送られる。
【0025】単語分割部13は日本語文を単語辞書12
に従って形態素解析することにより、表記と読みと品詞
の組からなる単語に分割する。読み選択部17は単語分
割部13により分割された単語を文頭から順に調べ、読
みが複数存在する単語を見付けた場合に、その単語を対
応する日本語文と共に関連語チェック部16に渡す。
【0026】関連語チェック部16は、単語分割部13
から渡された、それぞれ読みが異なり表記と品詞が同一
の各単語により関連語辞書15を検索し、当該単語の関
連語が取得できたならば、この関連語が当該単語と同一
日本語文中に含まれているか否かをチェックして、結果
を読み選択部17に返す。
【0027】読み選択部17は、関連語チェック部16
の結果に従って、同一文中に関連語が含まれる場合は、
それに対応した読みと表記と品詞の単語のみの統計デー
タを算出するように統計データ作成部14に指示する。
また同一文中に関連語が含まれなかった場合は、読み選
択部17は、すべての読みと表記と品詞の組の単語の統
計データを算出するように統計データ作成部14に指示
する。統計データ作成部14は、読み選択部17から指
示を受けた読みと表記と品詞の組の単語に対して統計デ
ータを算出し、統計データ記憶部4に保存する。
【0028】次に、図1の構成の動作の詳細について、
図2のフローチャートを適宜参照して説明する。今、オ
ペレータによる入力操作に従って、操作入力部3から日
本語統計データ作成指示が日本語統計データ作成装置1
の統計データ作成制御部11に与えられたものとする。
すると統計データ作成制御部11は、単語分割部13を
制御して、日本語データベース2の先頭から文章がなく
なるまで日本語文章を1文ずつ取り出させる(ステップ
S1)。
【0029】単語分割部13は、日本語データベース2
から取り出した日本語文を単語辞書12に従って形態素
解析することにより、表記・読み・品詞の組からなる単
語に分割する(ステップS2)。これにより、例えば
「この鯛は市場で仕入れた」という日本語文が日本語デ
ータベース2から取り出された場合であれば、この1文
は、「この」「鯛」「は」「市場」「で」「仕入れ」
「た」のように分割される。図3に、「この鯛は市場で
仕入れた」の文が、単語分割部13により読み・表記・
品詞の組からなる単語に分割された様子を示す。
【0030】単語分割部13による単語分割結果は順次
読み選択部17に渡される。読み選択部17は、単語分
割部13から渡された分割された単語列(読み・表記・
品詞の組からなる単語の列)を対象に、文頭の単語から
文末まで1語ずつ単語を取り出して(ステップS3)、
複数の読みを持つ単語であるか否かをチェックする(ス
テップS4)。そして読み選択部17は、複数個の読み
を持つ単語の場合は、それぞれの読みと表記と品詞の組
からなる単語、つまり読みが異なり表記と品詞が同一の
各単語を関連語チェック部16に渡し、複数個の読みを
持たない単語の場合は、その単語を選択して、文末でな
い限り次の単語を調べる(ステップS3,S4,S1
1)。
【0031】さて関連語チェック部16は、読み選択部
17により複数の読みを持つ単語であると判定された場
合、それぞれの読みと表記と品詞の組からなる単語で関
連語辞書15を検索する(ステップS5)。この関連語
辞書15の構成例を図4に示す。
【0032】図4の関連語辞書15の例では、「この」
「鯛」「は」「市場」「で」「仕入れ」「た」の各単語
を文頭から調べた場合、「市場」が複数(ここでは2
つ)の読みを持つことから、「市場」について、それぞ
れの読みと表記と品詞の組からなる単語が関連語チェッ
ク部16に渡されて関連語辞書15が検索された後、そ
の検索結果に基づいて当該関連語チェック部16による
同一文における関連語の有無がチェックされる(ステッ
プS6)。
【0033】ここでは、「市場(いちば)」「市場(し
じょう)」のそれぞれについて関連語辞書15が検索さ
れる。図4から明らかなように、関連語辞書15には、
「市場(いちば)」の関連語として「魚、鯛、鮭…」な
どがある。この場合、関連語チェック部16は、この関
連語のうちの「鯛」が「市場」が含まれていたのと同一
文、つまり「この鯛は市場で仕入れた」という同一文中
にあることを確認し、その関連語のある単語「市場(い
ちば)」の読み「いちば」を、単語「市場」の読みとし
て一意に確定できるものとして、その読み「いちば」を
読み選択部17に渡す。
【0034】読み選択部17は、読みが異なり表記と品
詞が同一の各単語のうち、同一文中に関連語が存在する
単語の読みを関連語チェック部16から受け取った場
合、対応する読みと表記と品詞の単語のみを選択する
(ステップS7)。この例では、読み選択部17は読み
「いちば」と表記「市場」と品詞「名詞」の組の単語の
みを選択する。これに対し、関連語辞書15に関連語が
ないか、或いは関連語辞書15に関連語が登録されてい
ても、その関連語が同一文中に存在しない場合には、読
み選択部17はすべての読みを選択する(ステップS
8)。
【0035】日本語統計データ作成装置1では、文末に
達するまで上記ステップS3からS8までの処理が繰り
返し行なわれる。そして文末に達した時点で統計データ
作成部14が起動される。すると統計データ作成部14
は、読み選択部17で選択された読みと表記と品詞の組
の単語のみに関して、単語の出現回数と、互いに隣接す
る複数の単語の並びの出現回数、例えば隣接する2単語
の出現回数を計算する(ステップS9)。上記した「こ
の鯛は市場で仕入れた」文の例では、図5のようにそれ
ぞれの単語の出現回数と隣接する2単語の出現回数が数
えられる。なお、隣接する2単語の出現回数に代えて、
互いに隣接するn単語(nは3以上の整数)の出現回数
まで計算するように、つまり隣接する2単語の出現回
数、…隣接するn単語の出現回数を計算するように拡張
してもよい。
【0036】統計データ作成部14は、単語の出現回数
と、互いに隣接する2単語の出現回数とを算出すると、
その統計データを統計データ記憶部4に保存する(ステ
ップS10)。
【0037】以上の処理をまで繰り返すことにより、日
本語データベース2の中の日本語コーパスすべてに関す
る、単語の出現回数と隣接する2単語の出現回数(隣接
する複数の単語の並びの出現回数)を累積し、統計デー
タ記憶部4に集計することができる。
【0038】[第2の実施形態]次に、図1の日本語統
計データ作成装置1をディクテーションシステムに適用
した本発明の第2の実施形態について、図面を参照して
説明する。
【0039】図6は本発明の第2の実施形態に係るディ
クテーションシステムの全体構成を示すブロック図であ
る。なお、図1と同一部分には同一符号を付してある。
図6のディクテーションシステムは統計データ記憶部4
に保存されている統計データを利用して認識単語候補の
新たな順位付けを行なうものであり、例えばパーソナル
コンピュータなどの情報処理装置を用い、当該情報処理
装置に所定のプログラム(日本語統計データ作成機能を
持つディクテーションプログラム)を読み込み実行させ
ることにより実現される。このプログラムが、CD−R
OM等の記録媒体から情報処理装置(の主記憶上)にロ
ードされて使用されるものであっても、通信媒体を介し
てダウンロードされて使用されるものであっても構わな
い。
【0040】図6のディクテーションシステムは、音声
入力部61と、音声認識制御部62と、表示部63と、
音声認識部64と、日本語統計処理部65とに加えて、
図1と同様の構成である、日本語統計データ作成装置1
と、(日本語データベース2に相当する)文書記憶部2
2と、操作入力部3と、統計データ記憶部4とを備えて
構成される。
【0041】音声入力部61は、音声を入力するための
もので、例えばマイクロホンと当該マイクロホンにより
電気信号に変換された入力音声をデジタルの音声データ
に変換するA/D変換器とを含む。
【0042】音声認識制御部62は、ディクテーション
システムでの音声認識に関する制御を司るもので、具体
的には音声入力部61からの入力音声に基づく文章作成
処理を実行するための装置内各部(表示部63、音声認
識部64、日本語統計処理部65)の制御を行なう。
【0043】表示部63は、音声認識により変換された
テキストの文字列などを表示するためのもので、例えば
CRTディスプレイ装置、または液晶表示装置(等のフ
ラットパネルディスプレイ装置)である。
【0044】音声認識部64は、音声入力部61から入
力される音声を認識し、日本語統計処理部65に対し、
音声列として類似している順に認識単語候補を出力す
る。
【0045】日本語統計処理部65は、音声認識部64
から出力される認識単語の候補に対して、統計データ記
憶部4を利用してスコア付けを行ない、音声認識部64
により付けられた順位と自身が付けた順位を総合して、
順位付けを行なう。
【0046】音声認識部64及び日本語統計処理部65
は、ディクテーションシステムでの音声認識処理に必要
な機能要素であり、それぞれ固有の処理ルーチン(と当
該処理ルーチンを実行するCPU)により実現される。
【0047】統計データ記憶部4には、前記第1の実施
形態で述べたようにして図2のフローチャートの示す手
順で作成された統計データが保存されている。この統計
データは、単語の出現回数と、互いに隣接する複数の単
語の並びの出現回数(ここでは2組の単語の出現回数)
から構成される。
【0048】文書記憶部22には、ディクテーションシ
ステムの利用者が持つ日本語文を含む各種の文書データ
が格納されている。文書記憶部22は、統計データ記憶
部4と同様に、ディクテーションシステムを実現するパ
ーソナルコンピュータに代表される情報処理装置の持つ
(ハードディスク装置等の)2次記憶装置(に装着され
る記録媒体)上に置かれる。
【0049】次に、図6の構成の動作について、図7の
フローチャートを適宜参照して説明する。まず統計デー
タ記憶部4には、前記第1の実施形態で述べたようにし
て図2のフローチャートの示す手順で作成された統計デ
ータが保存されている。この統計データは、例えば図1
のディクテーションシステムをパーソナルコンピュータ
等の情報処理装置により実現するための(日本語統計デ
ータ作成プログラムを含む)ディクテーションプログラ
ムが記録されているCD−ROM等の記録媒体に予め記
録されており、当該プログラムを上記情報処理装置にロ
ード(インストール)する際に、統計データ記憶部4に
ロードされる。
【0050】さて図6の構成のディクテーションシステ
ムでは、利用者が音声入力部61のマイクロホンに向か
って入力すべきテキストを音声で入力すると、その入力
音声(に対応するデジタル音声データ)が音声入力部6
1により入力され、音声認識制御部62により音声認識
部64に送られる(ステップS21)。
【0051】音声認識部64は、入力音声を認識して認
識単語の候補を取得し、各認識単語候補を入力音声に類
似したものから順に順位付けする(ステップS22)。
例えば、利用者が「私は私情を持たない」というテキス
トを、音声により「わたしはしじょうをもたない」と発
声した場合、音声認識部64では、その入力音声に類似
している認識単語候補を取得して類似している順に並べ
る。ここで、「しじょう」という入力音声部分に対し、
認識単語候補として「私情」「市場」「事情」「秘書」
…が取得され、「私情、市場、事情、秘書…」の順に順
位付けがされたとする。これらの候補は、音声認識部6
4から日本語統計処理部65に渡される。
【0052】すると日本語統計処理部65は、音声認識
部64から送られる認識単語候補について、統計データ
記憶部4に保存されている統計データ(日本語統計デー
タ)を用いて順位付けを行なう(ステップS23)。
【0053】図8に統計データ記憶部4に保存されてい
る統計データの一例を示す。ここでは、統計データとし
て、隣接する2単語の出現回数の累積値が示されてい
る。なお、各単語の出現回数の累積値は省略されてい
る。
【0054】日本語統計処理部65は、統計データ記憶
部4に保存されている統計データの示す、隣接する2単
語の出現回数から、前方単語「は」に隣接する単語とし
ての「しじょう」の認識単語候補「私情」「市場」「事
情」「秘書」…の出現割合(を表す統計値、つまり出現
確率)を算出し、その値から例えば「私情、市場、秘
書、事情…」のように順位付けする。ここでは、認識単
語候補が例えば「A」「B」「C」であり、「はA」
「はB」「はC」の出現回数が「nA」「nB」「nC」
であるものとすると、「はA」「はB」「はC」の出現
割合(出現確率)は、「nA/(nA+nB+nC)」「n
B/(nA+nB+nC)」「nC/(nA+nB+nC)」で
表される。なお、統計データ中に、隣接する2単語の出
現回数の情報が存在しない認識単語候補については、当
該単語の出現回数を用いて出現割合(出現確率)が算出
される。但し、隣接する2単語の出現回数を用いた場合
に対して差をつけるため、算出した値に1未満の重みを
乗じる。
【0055】次に日本語統計処理部65は、音声認識部
64での順位付け結果と、自身の行なった統計データに
基づく順位付け結果とを総合的に判断して、各認識単語
候補の順位付けを行ない、最上位の候補(第1位候補)
を選択して表示部63に表示する(ステップS24)。
ここでは、「しじょう」に対する認識単語候補のうちの
「私情」が、統計データに基づく順位付けで、音声認識
結果と同様に第1位となり、その結果、最終的に「私
情」が第1位の候補として選択されたものとする。
【0056】なお、統計データ記憶部4に保存されてい
る統計データが、図2のフローチャートに従って前記第
1の実施形態で述べたように作成されていない場合、つ
まり従来と同様の手法で作成されたものであるとする
と、「市場(いちば)」「市場(しじょう)」は、どち
らの読みについても出現回数が累計されることになる。
この場合、助詞「は」につながる図8の「市場(いち
ば)」と「市場(しじょう)」の出現回数は、「市場
(いちば)」=1000回、「市場(しじょう)」=1
500回ではなく、「市場(いちば)」=2500回、
「市場(しじょう)」=2500回として累計される。
このため従来であれば、「しじょう」の認識単語候補
「私情」「市場」「事情」「秘書」…に対する統計処理
の順位付け結果は、「市場、私情、秘書、事情…」とな
って、日本語統計処理部65での総合の順位付けでは
「私情」と「市場」の順位が逆転する可能性があった。
これに対して本実施形態では、より正確な出現回数を統
計データにすることで、より正確な順位付けを行なうこ
とができる。
【0057】ところで、統計データ記憶部4に保存され
ている統計データは、前記第1の実施形態で示したよう
に、システムが用意した日本語データベース2に格納さ
れている大規模な日本語コーパスに基づいて日本語統計
データ作成装置1により作成されたものである。しか
し、利用者が音声で入力するテキストが特定の分野に偏
っている場合等には、統計データ記憶部4に保存されて
いる統計データが、上記入力テキストでの各単語の出現
回数を正しく反映するとは限らない。そこで、図6のデ
ィクテーションシステムに日本語統計データ作成装置1
を持たせ、前記第1の実施形態において日本語データベ
ース2に格納されている日本語文を対象に日本語統計デ
ータ作成処理を行なったのと同様の手順で、文書記憶部
22に格納されている日本語文書情報を対象とする日本
語統計データ作成処理を行なって、統計データ記憶部4
内の統計データを更新することにより、当該統計データ
を、利用者の扱うテキストでの各単語の出現回数をより
正しく反映したものに近付けることができる。
【0058】以上に述べた第2の実施形態では、第1の
実施形態で作成された統計データをディクテーションシ
ステム(内の音声認識部64による認識処理)で取得さ
れた(順位付きの)音声認識候補に対する新たな順位付
けに利用する場合について説明したが、これに限るもの
ではなく、数値的に類似度を計算して順位付けを行なう
ような日本語処理全般、例えば手書き文字(筆記文字)
に対する認識や印刷文字に対する認識(OCR)といっ
た認識文字候補の選択にも応用が可能である。また、そ
れ以外にも、翻訳における訳語選択や音声読み上げにお
ける読みの確定などにも応用可能である。
【0059】
【発明の効果】以上詳述したように本発明によれば、複
数の読みのある単語の場合、それぞれの読みと表記と品
詞の単語により関連語辞書を検索して関連語の有る単語
の読みを調べ、関連語が存在し、且つその関連語が同一
文中に含まれている場合には、つまり文章中の近接する
他の単語から当該複数の読みのある単語の読みを一意に
確定できる場合には、この読みの単語として出現回数を
数え、また一意に確定できない場合は複数の読みそれぞ
れに対して単語の出現回数を数えることで、日本語コー
パスから得られる最大限の統計値をより正確に算出して
言語モデルの統計データとすることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る日本語統計デー
タ作成装置の全体構成を示すブロック図。
【図2】同第1の実施形態の動作を説明するためのフロ
ーチャート。
【図3】「この鯛は市場で仕入れた」の文に対する単語
分割例を示す図。
【図4】図1中の関連語辞書15の構成例を示す図。
【図5】「この鯛は市場で仕入れた」の文の単語分割結
果を対象とする単語出現回数の例を示す図。
【図6】本発明の第2の実施形態に係るディクテーショ
ンシステムの全体構成を示すブロック図。
【図7】同第2の実施形態の動作を説明するためのフロ
ーチャート。
【図8】図6中の統計データ記憶部4に保存されている
統計データの一例を示す図。
【符号の説明】
1…日本語統計データ作成装置 2…日本語データベース 3…操作入力部 4…統計データ記憶部 11…統計データ作成制御部 12…単語辞書 13…単語分割部 14…統計データ作成部 15…関連語辞書 16…関連語チェック部 17…読み選択部 22…文書記憶部 61…音声入力部 62…音声認識制御部 63…表示部 64…音声認識部 65…日本語統計処理部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 日本語データベースに格納されている日
    本語コーパスに基づいて、読みと表記と品詞の組からな
    る単語の出現回数および隣接する単語の並びの出現回数
    を含む日本語統計データを作成する日本語統計データ作
    成装置において、 前記日本語データベースから取得される日本語文を形態
    素解析して読みと表記と品詞の組からなる単語に分割す
    る単語分割手段と、 読みと表記と品詞の組が異なる単語毎に、その単語に対
    して同一文中に近接して用いられる可能性の高い関連語
    を記述した関連語辞書と、 前記単語分割手段によって分割された単語に複数の読み
    が存在する場合、それぞれの読みと表記と品詞の組の単
    語により前記関連語辞書を検索し、当該単語の関連語が
    取得できたならば、この関連語が当該単語と同一日本語
    文中に含まれているか否かを調べる関連語チェック手段
    と、 前記単語分割手段により分割された単語に複数の読みが
    存在し、且つ、それぞれの読みと表記と品詞の組からな
    る単語のうち、その関連語が同一文中に含まれている単
    語が存在する場合には、該当する読みと表記と品詞の組
    の単語のみを選択し、それ以外の場合には、すべての読
    みと表記と品詞の組からなる単語を選択する読み選択手
    段と、 前記日本語コーパスから、読みと表記と品詞の組からな
    る単語の出現回数および隣接する単語の並びの出現回数
    を計算する統計データ作成手段であって、前記読み選択
    手段により選択された読みと表記と品詞の組の単語につ
    いて、単語の出現回数および隣接する単語の並びの出現
    回数に数える統計データ作成手段とを具備することを特
    徴とする日本語統計データ作成装置。
  2. 【請求項2】 日本語データベースに格納されている日
    本語コーパスに基づいて、読みと表記と品詞の組からな
    る単語の出現回数および隣接する単語の並びの出現回数
    を含む日本語統計データを作成する日本語統計データ作
    成方法において、 前記日本語データベースから取得される日本語文を形態
    素解析して読みと表記と品詞の組からなる単語に分割す
    る第1のステップと、 前記分割された単語に複数の読みが存在するか否かを調
    べる第2のステップと、 前記分割された単語に複数の読みが存在する場合、それ
    ぞれの読みと表記と品詞の組の単語により、読みと表記
    と品詞の組が異なる単語毎に、その単語に対して同一文
    中に近接して用いられる可能性の高い関連語を記述した
    関連語辞書を検索し、当該単語の関連語が取得できたな
    らば、この関連語が当該単語と同一日本語文中に含まれ
    ているか否かを調べる第3のステップと、 前記関連語が同一日本語文中に含まれている場合は、そ
    の関連語に対応した読みと表記と品詞の組の単語のみを
    選択し、それ以外の場合は、すべての読みと表記と品詞
    の組からなる単語を選択する第4のステップと、 前記選択した読みと表記と品詞の組の単語について、単
    語の出現回数および隣接する単語の並びの出現回数に数
    える第5のステップと、 前記第1乃至第5のステップを前記日本語データベース
    内の各日本語文について繰り返す第6のステップとを具
    備することを特徴とする日本語統計データ作成方法。
  3. 【請求項3】 日本語データベースに格納されている日
    本語コーパスに基づいて、読みと表記と品詞の組からな
    る単語の出現回数および隣接する単語の並びの出現回数
    を含む日本語統計データを作成する日本語統計データ作
    成プログラムを記録したコンピュータ読み取り可能な記
    録媒体であって、 コンピュータに、 前記日本語データベースから取得される日本語文を形態
    素解析して読みと表記と品詞の組からなる単語に分割す
    る第1のステップと、 前記分割された単語に複数の読みが存在するか否かを調
    べる第2のステップと、 前記分割された単語に複数の読みが存在する場合、それ
    ぞれの読みと表記と品詞の組の単語により、読みと表記
    と品詞の組が異なる単語毎に、その単語に対して同一文
    中に近接して用いられる可能性の高い関連語を記述した
    関連語辞書を検索し、当該単語の関連語が取得できたな
    らば、この関連語が当該単語と同一日本語文中に含まれ
    ているか否かを調べる第3のステップと、 前記関連語が同一日本語文中に含まれている場合は、そ
    の関連語に対応した読みと表記と品詞の組の単語のみを
    選択し、それ以外の場合は、すべての読みと表記と品詞
    の組からなる単語を選択する第4のステップと、 前記選択した読みと表記と品詞の組の単語について、単
    語の出現回数および隣接する単語の並びの出現回数に数
    える第5のステップと、 前記第1乃至第5のステップを前記日本語データベース
    内の各日本語文について繰り返す第6のステップとを実
    行させるための日本語統計データ作成プログラムを記録
    したコンピュータ読み取り可能な記録媒体。
  4. 【請求項4】 音声を入力する音声入力手段と、 前記音声入力手段により入力された音声を認識して順位
    付けされた複数の認識候補を取得する音声認識手段と、 前記請求項1に記載の日本語統計データ作成装置により
    作成された日本語統計データが格納された日本語統計デ
    ータ記憶手段と、 前記音声認識手段により取得された前記認識候補に対
    し、当該音声認識手段による順位付けとは無関係に、前
    記日本語統計データ記憶手段に格納されている前記日本
    語統計データの示す読みと表記と品詞の組からなる単語
    の出現回数および隣接する単語の並びの出現回数をもと
    に順位付けを行ない、前記音声認識手段による順位付け
    結果と自身の順位付け結果とに基づいて前記認識候補の
    最終的な順位付けを行なう日本語統計処理手段とを具備
    することを特徴とするディクテーションシステム。
  5. 【請求項5】 日本語文を含む各種文書データが格納さ
    れる文書記憶手段と、 前記文書記憶手段内の任意の日本語文を選択指定可能な
    操作入力手段と、 前記操作入力手段により指定された前記文書記憶手段内
    の日本語文を形態素解析して読みと表記と品詞の組から
    なる単語に分割する単語分割手段と、読みと表記と品詞
    の組が異なる単語毎に、その単語に対して同一文中に近
    接して用いられる可能性の高い関連語を記述した関連語
    辞書と、前記単語分割手段によって分割された単語に複
    数の読みが存在する場合、それぞれの読みと表記と品詞
    の組の単語により前記関連語辞書を検索し、当該単語の
    関連語が取得できたならば、この関連語が当該単語と同
    一日本語文中に含まれているか否かを調べる関連語チェ
    ック手段と、前記単語分割手段により分割された単語に
    複数の読みが存在し、且つ、それぞれの読みと表記と品
    詞の組からなる単語のうち、その関連語が同一文中に含
    まれている単語が存在する場合には、該当する読みと表
    記と品詞の組の単語のみを選択し、それ以外の場合に
    は、すべての読みと表記と品詞の組からなる単語を選択
    する読み選択手段と、前記読み選択手段により選択され
    た読みと表記と品詞の組の単語について、前記日本語統
    計データ記憶手段に格納されている日本語統計データ中
    の、前記単語の出現回数および隣接する単語の並びの出
    現回数に数える統計データ作成手段とを備えた日本語統
    計データ作成装置とを更に具備することを特徴とする請
    求項4記載のディクテーションシステム。
  6. 【請求項6】 認識対象となる音声または筆記文字また
    は印刷文字の認識処理を行って順位付けされた複数の認
    識候補を取得する認識手段を備えた認識システムにおい
    て、 前記請求項1に記載の日本語統計データ作成装置により
    作成された日本語統計データが格納された日本語統計デ
    ータ記憶手段と、 前記認識手段により取得された前記認識候補に対し、当
    該認識手段による順位付けとは無関係に、前記日本語統
    計データ記憶手段に格納されている前記日本語統計デー
    タの示す読みと表記と品詞の組からなる単語の出現回数
    および隣接する単語の並びの出現回数をもとに順位付け
    を行ない、前記認識手段による順位付け結果と自身の順
    位付け結果とに基づいて前記認識候補の最終的な順位付
    けを行なう日本語統計処理手段とを具備することを特徴
    とする認識システム。
JP11222560A 1999-08-05 1999-08-05 日本語統計データ作成装置および方法、並びにディクテーションシステム Withdrawn JP2001051992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11222560A JP2001051992A (ja) 1999-08-05 1999-08-05 日本語統計データ作成装置および方法、並びにディクテーションシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11222560A JP2001051992A (ja) 1999-08-05 1999-08-05 日本語統計データ作成装置および方法、並びにディクテーションシステム

Publications (1)

Publication Number Publication Date
JP2001051992A true JP2001051992A (ja) 2001-02-23

Family

ID=16784378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11222560A Withdrawn JP2001051992A (ja) 1999-08-05 1999-08-05 日本語統計データ作成装置および方法、並びにディクテーションシステム

Country Status (1)

Country Link
JP (1) JP2001051992A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304189A (ja) * 2001-04-05 2002-10-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2008216756A (ja) * 2007-03-06 2008-09-18 Internatl Business Mach Corp <Ibm> 語句として新たに認識するべき文字列等を取得する技術

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304189A (ja) * 2001-04-05 2002-10-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
JP2003255985A (ja) * 2002-02-28 2003-09-10 Toshiba Corp 統計的言語モデル作成方法及び装置並びにプログラム
JP2008216756A (ja) * 2007-03-06 2008-09-18 Internatl Business Mach Corp <Ibm> 語句として新たに認識するべき文字列等を取得する技術

Similar Documents

Publication Publication Date Title
US4903206A (en) Spelling error correcting system
JP3720068B2 (ja) 質問の転記方法及び装置
US7937263B2 (en) System and method for tokenization of text using classifier models
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JPH0675992A (ja) テキストをインデックス及び検索するための関連ワード形態の限定状態トランスジューサ
JPH03172966A (ja) 類似文書検索装置
JP4738847B2 (ja) データ検索装置および方法
JPH0778183A (ja) デ−タベ−ス検索システム
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JP2956621B2 (ja) 擬音語を用いた音検索システムおよび擬音語を用いた音検索方法
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JP4041876B2 (ja) 複数尺度の利用による言語変換処理システムおよびその処理プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP3758241B2 (ja) 音声情報検索装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP4511274B2 (ja) 音声データ検索装置
JPH06124305A (ja) 文書検索方法
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JPH11250063A (ja) 検索装置及び検索方法
JP3048793B2 (ja) 文字変換装置
JPH0916575A (ja) 発音辞書装置
JPH05120331A (ja) 同音異義語認識装置
JPH08212225A (ja) 言語判定装置
JPH07129596A (ja) 自然言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051013

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060811