JP2002162986A

JP2002162986A - 情報処理装置及びその方法、コンピュータ可読メモリ

Info

Publication number: JP2002162986A
Application number: JP2000360207A
Authority: JP
Inventors: Michio Aizawa; 道雄相澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-11-27
Filing date: 2000-11-27
Publication date: 2002-06-07

Abstract

(57)【要約】【課題】汎用性が高く、かつ精度の良い音声合成用辞
書を作成することができる情報処理装置及びその方法、
コンピュータ可読メモリを提供する。【解決手段】初期設定保持部１０１で、小型辞書１１
２を構成する単語数を指定する。次に、小型辞書保持部
１０７で、小型辞書１１２を構成する単語を決定するた
めの学習用文書データ１０９と、大量文章データ１０８
に基づいて、該小型辞書１１２を構成する。アクセント
処理部１０３は、小型辞書１１２を評価するための評価
用文章データ１１０に対し、システム辞書１１１を用い
てアクセント処理を行ない、第１アクセント句情報を出
力し、また、評価用文章データ１１０に対し、小型辞書
１１２を用いてアクセント処理を行い、第２アクセント
句情報を出力する。そして、アクセント句相対精度評価
部１０６は、第２アクセント句情報の第１アクセント句
情報に対する相対精度を算出する。そして、小型辞書保
持部１０７は、相対精度と小型辞書１１２を対応づけて
管理する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、予め登録されてい
るシステム辞書に基づいて分野毎の小型辞書を作成する
情報処理装置及びその方法、コンピュータ可読メモリに
関するものである。

【０００２】

【従来の技術】音声合成システムや音声認識システム等
では、音声認識用としてシステムの持つ数十万語レベル
のシステム辞書から数千語〜数万語の単語を取り出した
サブセットの小型辞書がよく使われる。これは、実行速
度の向上やメモリサイズの削減を目的としている。

【０００３】例えば、コンピュータ関係の文書と経済関
係の文章では、異なる単語が出現する。しかし、小型辞
書では、語数を制限しているため様々な分野の単語（特
に、専門用語等）を同時に収録することができない。そ
のため、コンピュータ関係、経済関係等の適用分野に合
わせて小型辞書に登録する選択単語を変化させる必要が
ある。

【０００４】適用分野に応じて、小型辞書に登録する単
語を選択する最も簡単な方法は、その適用分野の大量の
文章から単語の出現頻度を計算し、出現頻度の上位から
設定した語数までの単語を選ぶ方法がある。しかし、一
般に適用分野に応じた文章を大量に集めることは困難で
ある。そこで、新聞記事等の大量に入手できる文章と適
用分野の少量の文章に基づいて、小型辞書に登録する単
語を選択する方法を行っている。

【０００５】例えば、特開２０００−７５８９２号で
は、大量にある過去のニュース原稿と、少量の最近のニ
ュース原稿から、小型辞書に登録する単語を選択してい
る。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
特開２０００−７５８９２号で開示される方法は、単語
選択の評価基準としてパープレキシティを用いている。
パープレキシティはｎグラムモデルを用いた統計的手法
に関係する値である。そのため、統計的手法を用いてい
ないシステムにおいては有効性が低い。

【０００７】本発明は上記の課題を解決するためになさ
れたものであり、汎用性が高く、かつ精度の良い音声合
成用辞書を作成することができる情報処理装置及びその
方法、コンピュータ可読メモリを提供することを目的と
する。〔発明の詳細な説明〕

【０００８】

【０００９】例えば、コンピュータ関係の文書と経済関
係の文章では、異なる単語が出現する。しかし、小型辞
書では、語数を制限しているため様々な分野の単語（特
に、専門用語等）を同時に収録することができない。そ
のため、コンピュータ関係、経済関係等の適用分野に合
わせて小型辞書に登録する選択単語を変化させる必要が
ある。

【００１０】適用分野に応じて、小型辞書に登録する単
語を選択する最も簡単な方法は、その適用分野の大量の
文章から単語の出現頻度を計算し、出現頻度の上位から
設定した語数までの単語を選ぶ方法がある。しかし、一
般に適用分野に応じた文章を大量に集めることは困難で
ある。そこで、新聞記事等の大量に入手できる文章と適
用分野の少量の文章に基づいて、小型辞書に登録する単
語を選択する方法を行っている。

【００１１】例えば、特開２０００−７５８９２号で
は、大量にある過去のニュース原稿と、少量の最近のニ
ュース原稿から、小型辞書に登録する単語を選択してい
る。

【００１２】

【００１３】本発明は上記の課題を解決するためになさ
れたものであり、汎用性が高く、かつ精度の良い音声合
成用辞書を作成することができる情報処理装置及びその
方法、コンピュータ可読メモリを提供することを目的と
する。

【００１４】

【課題を解決するための手段】上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、予め登録されているシステム辞書に基づいて分野
毎の小型辞書を作成する情報処理装置であって、前記小
型辞書を構成する単語数を指定する指定手段と、前記小
型辞書を構成する単語を決定するための学習用文書デー
タと、大量文章データに基づいて、該小型辞書を構成す
る構成手段と、前記小型辞書を評価するための評価用文
章データに対し、前記システム辞書を用いてアクセント
処理を行ない、第１アクセント句情報を出力する第１ア
クセント処理手段と、前記評価用文章データに対し、前
記小型辞書を用いてアクセント処理を行い、第２アクセ
ント句情報を出力する第２アクセント処理手段と、前記
第２アクセント句情報の前記第１アクセント句情報に対
する相対精度を算出する算出手段と、前記相対精度と前
記小型辞書を対応づけて管理する管理手段とを備える。

【００１５】また、好ましくは、前記指定手段は、前記
小型辞書を構成する全単語数と、該全単語数の内、前記
学習用文書データから得られる単語から選ぶ単語数との
組を指定する。

【００１６】また、好ましくは、前記構成手段は、前記
学習用文書データ及び前記大量文書データそれぞれに対
し形態素解析を行う形態素解析手段とを備え、前記形態
素解析手段の形態素解析結果に基づいて、前記小型辞書
を構成する。

【００１７】また、好ましくは、前記相対精度は、前記
第２アクセント句情報が前記第１アクセント情報と一致
する度合を示す。

【００１８】また、好ましくは、前記学習用文章データ
及び前記評価用文章データは、分野毎に存在する。

【００１９】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、予め登録さ
れているシステム辞書に基づいて分野毎の小型辞書を作
成する情報処理方法であって、前記小型辞書を構成する
単語数を指定する指定工程と、前記小型辞書を構成する
単語を決定するための学習用文書データと、大量文章デ
ータに基づいて、該小型辞書を構成する構成工程と、前
記小型辞書を評価するための評価用文章データに対し、
前記システム辞書を用いてアクセント処理を行ない、第
１アクセント句情報を出力する第１アクセント処理工程
と、前記評価用文章データに対し、前記小型辞書を用い
てアクセント処理を行い、第２アクセント句情報を出力
する第２アクセント処理工程と、前記第２アクセント句
情報の前記第１アクセント句情報に対する相対精度を算
出する算出工程と、前記相対精度と前記小型辞書を対応
づけて記憶媒体に管理する管理工程とを備える。

【００２０】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
予め登録されているシステム辞書に基づいて分野毎の小
型辞書を作成する情報処理のプログラムコードが格納さ
れたコンピュータ可読メモリであって、前記小型辞書を
構成する単語数を指定する指定工程のプログラムコード
と、前記小型辞書を構成する単語を決定するための学習
用文書データと、大量文章データに基づいて、該小型辞
書を構成する構成工程のプログラムコードと、前記小型
辞書を評価するための評価用文章データに対し、前記シ
ステム辞書を用いてアクセント処理を行ない、第１アク
セント句情報を出力する第１アクセント処理工程のプロ
グラムコードと、前記評価用文章データに対し、前記小
型辞書を用いてアクセント処理を行い、第２アクセント
句情報を出力する第２アクセント処理工程のプログラム
コードと、前記第２アクセント句情報の前記第１アクセ
ント句情報に対する相対精度を算出する算出工程のプロ
グラムコードと、前記相対精度と前記小型辞書を対応づ
けて記憶媒体に管理する管理工程とを備える。

【００２１】

【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。

【００２２】図１は本実施形態の情報処理装置の構成を
示すブロック図である。

【００２３】図１において、ＣＰＵ１１０１はメインバ
ス１１０６を介して情報処理装置１０００全体の制御を
実行するとともに、情報処理装置１０００の外部に接続
される入力装置１１１０（例えば、マイク、イメージス
キャナ、記憶装置、ネットワーク回線を介して接続され
る他の情報処理装置、電話回線を介して接続されるファ
クシミリ等）を入力Ｉ／Ｆ（インタフェース）１１０４
を介して制御する。また、情報処理装置１０００の外部
に接続される出力装置１１１１（例えば、スピーカ、プ
リンタ、モニタ、ネットワーク回線を介して接続される
他の情報処理装置、電話回線を介して接続されるファク
シミリ等）を出力Ｉ／Ｆ１１０５を介して制御する。ま
た、ＣＰＵ１１０１は、ＫＢＤＩ／Ｆ（キーボードイン
タフェース）１１０７を介して入力部（例えば、キーボ
ード１１１２やポインティングデバイス１１１３やペン
１１１４）から入力された指示に従って、音声の入力、
音声認識処理、音声合成処理、等の一連の処理を実行す
る。更に、入力装置１１１０より入力された音声データ
や、キーボード１１１２やポインティングデバイス１１
１３やペン１１１４を用いて作成されたデータを表示す
る表示部１１０９をビデオＩ／Ｆ（インタフェース）１
１０８を介して制御する。

【００２４】ＲＯＭ１１０２は、ＣＰＵ１１０１の各種
制御を実行する各種制御プログラムを記憶している。Ｒ
ＡＭ１１０３は、ＣＰＵ１１０１によりＯＳや本発明を
実現するための制御プログラムを含むその他の制御プロ
グラムがロードされ実行される。また、制御プログラム
を実行するために用いられる各種作業領域、一時待避領
域として機能する。また、入力装置１１１０より入力さ
れた画像データや、キーボード１１１２やポインティン
グデバイス１１１３やペン１１１４を用いて作成された
画像データを、一旦、保持するＶＲＡＭ（不図示）が構
成されている。

【００２５】次に、本実施形態の情報処理装置の機能構
成について、図２を用いて説明する。

【００２６】図２は本実施形態の情報処理装置の機能構
成を示すブロック図である。

【００２７】１０１は、本装置を動作させるための初期
設定値を保持する初期設定保持部である。初期設定値
は、作成対象の小型辞書１１２の登録語数とその中で学
習用文書データ１１０に出現する単語の中から選択する
単語数の組である。この組を複数設定することもでき
る。

【００２８】１０２は、入力文章データ（テキストデー
タ）に対し形態素解析を行う形態素解析部である。１０
３は、入力文章データに対しアクセント処理を行ないア
クセント句情報を出力するアクセント処理部である。ア
クセント句情報は、読み、アクセント句の区切り、アク
セント型からなる。１０４は、大量文章データ１０８に
含まれる単語の頻度情報を保持する大量文章単語頻度情
報保持部である。

【００２９】１０５は、学習用文章データ１０９に含ま
れる単語の頻度情報を保持する学習用文章単語頻度情報
保持部である。１０６は、アクセント句の相対精度を評
価するアクセント句相対精度評価部である。ここで、ア
クセント句の相対精度とはシステム辞書１１１で解析し
たアクセント句を正解とみなした場合に、そのアクセン
ト句と小型辞書１１２で解析したアクセント句が一致す
る度合（精度）を示す値のことである。

【００３０】１０７は、本装置が作成した小型辞書１１
２とアクセント句相対精度の組を保持する小型辞書保持
部である。１０８は、雑誌、新聞等の大量文章データで
ある。１０９は、複数種類の適用分野の文章データに対
し、各適用分野毎の小型辞書１１２の（小型辞書１１２
を構成する単語を決定するための）学習用に割り当てた
学習用文章データである。１１０は、複数種類の適用分
野の文章データに対し、各適用分野毎の小型辞書１１２
の評価用に割り当てた評価用文章データである。１１１
は、本装置が持つすべての単語を含んだシステム辞書で
ある。１１２は、後述する処理によって本装置が作成し
た適用分野毎の小型辞書である。

【００３１】尚、大量文章単語頻度情報保持部１０４、
学習用文章単語頻度情報保持部１０５、アクセント句相
対精度評価部１０６、小型辞書保持部１０７、大量文章
データ１０８、学習用文章データ１０９、評価用文章デ
ータ１１０、システム辞書１１１、小型辞書１１２は、
例えば、ＲＯＭ１１０２、ＲＡＭ１１０３、あるいは記
憶装置として用いられる入力装置１１１０上で実現され
る。

【００３２】次に、本実施形態の情報処理装置で実行さ
れる処理について、図３を用いて説明する。

【００３３】図３は本実施形態の情報処理装置の処理手
順を示すフローチャートである。

【００３４】まず、ステップＳ２０１で、作成対象の小
型辞書１１２の登録語数とその中で学習用文章データ１
０９に出現する単語の中から選ぶ単語数との組を設定す
る。例えば、（３００００，２００００）は、登録語数
が３００００語であり、学習用文章データ１０９から選
ぶ単語が２００００語の辞書を作成することを設定す
る。残りの１００００語は、大量文章データ１０８に出
現する単語の中から選ぶ。また、この組を複数個設定し
てもよい。

【００３５】次に、ステップＳ２０２で、大量文章デー
タ１０８に対しシステム辞書１１１を用いて形態素解析
を行う。ステップＳ２０３で、ステップＳ２０２の形態
素解析結果を用いて、大量文章データ１０８に出現する
単語の頻度を計算し、頻度の高い順に大量文章単語頻度
情報保持部１０４に保持する。ここで、大量文章単語頻
度情報保持部１０４が保持するデータ構成例を、図４に
示す。図４に示すように、大量文書単語頻度情報保持部
１０４では、品詞別に、その品詞の見出しとその見出し
の出現頻度を対応付けて管理している。

【００３６】次に、ステップＳ２０４で、学習用文章デ
ータ１０９に対しシステム辞書１１１を用いて形態素解
析を行う。ステップＳ２０５で、ステップＳ２０４の形
態素解析結果を用いて学習用文章データ１０９に出現す
る単語の頻度を計算し、頻度の高い順に学習用単語頻度
情報保持部１０５に保持する。ここで、学習用単語頻度
情報保持部１０５が保持するデータ構成例を、図５に示
す。図５に示すように、学習用単語頻度情報保持部１０
５では、大量文書単語頻度情報保持部１０４と同様に、
品詞別に、その品詞の見出しとその見出しの出現頻度を
対応付けて管理している。

【００３７】次に、ステップＳ２０６で、評価用文章デ
ータ１１０に対しシステム辞書１１１を用いてアクセン
ト処理を行う。この処理結果は、アクセント句相対精度
評価部１０６に保持する。ここで、アクセント句相対精
度評価部１０６が保持するデータ構成例を、図６に示
す。図６は、評価用文書データ１１０として、「半導体
メモリを搭載したメモリを販売する」、「パソコンで生
成したデータを再生する」、「単四型電池を使用する」
に対し、システム辞書１１１を用いてアクセント処理を
行った場合の処理結果を示している。処理結果は、評価
用文書データの読みと、アクセント句の切れ目と、アク
セント型からなり、図６では、読みを「カタカナ」、ア
クセント句の切れ目を「／」、アクセント型を「↓」で
表している。

【００３８】次に、ステップＳ２０７で、ステップＳ２
０１で設定した小型辞書１１２に登録する単語数とその
中で学習用文章データ１０９に出現する単語の中から選
ぶ単語数の組が残っているか否かを判定する。単語数の
組が残っていない場合（ステップＳ２０７でＮＯ）、処
理を終了する。一方、単語数の組が残っている場合（ス
テップＳ２０７でＹＥＳ）、ステップＳ２０８に進む。

【００３９】次に、ステップＳ２０８で、単語数の組を
一つ取り出す。例として、単語数の組（３００００，２
００００）を取り出した場合、学習用文章単語頻度情報
保持部１０５に保持されている単語の中から頻度が高い
もの上位２００００語を取り出し、小型辞書１１２に登
録する。次に、大量文章単語頻度情報保持部１０４に保
持されている単語の中で頻度の高いものから小型辞書１
１２に登録する。登録対象の単語がすでに登録されてい
る場合は、次の単語へ移る。そして、小型辞書１１２の
登録語数が３００００語になるまで続ける。

【００４０】次に、ステップＳ２０８で、評価用文章デ
ータ１１０に対し小型辞書１１２を用いてアクセント処
理を行う。このアクセント処理結果は、アクセント句相
対精度評価部１０６に保持する。ここで、アクセント句
相対精度評価部１０６が保持するデータ構成例を、図７
に示す。図７は、図６と同様に、評価用文書データ１１
０として、「半導体メモリを搭載したメモリを販売す
る」、「パソコンで生成したデータを再生する」、「単
四型電池を使用する」に対し、小型辞書１１２を用いて
アクセント処理を行った場合の処理結果を示している。
図７では、評価用文書データ１１０の内、「半導体メモ
リを搭載したメモリを販売する」のアクセント処理結果
が、図６の場合と異なっていることがわかる。これは、
小型辞書１１２に「半導体」という単語が登録されてお
らず、「半導体」を「半導」と「体」の２文字として認
識されてしまった結果、その読みとして「ハンドウ」と
「カラダ」が生成されていることがわかる。

【００４１】次に、ステップＳ２０９で、システム辞書
１１１を用いたアクセント処理（ステップＳ２０６）の
処理結果（図６）と小型辞書１１２を用いたアクセント
処理（ステップＳ２０８）の処理結果（図７）を用い
て、アクセント句相対精度を計算する。アクセント句相
対精度の値は、次式を用いて計算する。つまり、アクセ
ント句相対精度＝（切れ目とアクセント型が一致したア
クセント句数）÷（システム辞書１１１を用いたアクセ
ント処理の処理結果によるアクセント句数）。

【００４２】尚、切れ目とアクセント型が一致するアク
セント句はＤＰマッチング等の手法を用いることで計算
可能である。図８に一致するアクセント句の例を示す。
図中、実線で囲まれた部分がシステム辞書１１１でアク
セント処理した処理結果のアクセント句、破線で囲まれ
た部分が小型辞書１１２でアクセント処理した処理結果
のアクセント句を示す。この図８の場合のアクセント句
相対精度は、７÷１０＝０．７となる。

【００４３】次に、ステップＳ２１０で、ステップＳ２
０７で選択した小型辞書１１２とステップＳ２０９で計
算したアクセント句相対精度の値を小型辞書保持部１０
７に保持する。

【００４４】以上の処理を繰り返すことにより、小型辞
書保持部１０７に小型辞書１１２が複数個生成され、各
小型辞書１１２には、それぞれのアクセント句相対精度
が保持される。そして、このアクセント句相対精度によ
り、各小型辞書１１２の性能を図ることができる。つま
り、アクセント句相対精度に基づいて、ステップＳ２０
１で設定する組を任意に変更することで、よりアクセン
ト句相対精度の高い組の小型辞書１１２を構成すること
ができる。

【００４５】以上説明したように、本実施形態によれ
ば、新聞等の大量文章と適用分野の少量文章から、大規
模なシステム辞書のサブセットとしての小型辞書を適用
分野に適した形で作成することができる。また、アクセ
ント句相対精度を評価基準としているため、辞書を利用
するシステムのアルゴリズム（統計的手法、ルールベー
スなど）に依存しない。

【００４６】尚、本発明は、複数の機器（例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タなど）から構成されるシステムに適用しても、一つの
機器からなる装置（例えば、複写機、ファクシミリ装置
など）に適用してもよい。

【００４７】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００４８】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００４９】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ
−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭな
どを用いることができる。

【００５０】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００５１】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
ＣＰＵなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。

【００５２】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図３に示すフローチャー
トに対応するプログラムコードが格納されることにな
る。

【００５３】

【発明の効果】以上説明したように、本発明によれば、
汎用性が高く、かつ精度の良い音声合成用辞書を作成す
ることができる情報処理装置及びその方法、コンピュー
タ可読メモリを提供できる。

【図面の簡単な説明】

【図１】本実施形態の情報処理装置の構成を示すブロッ
ク図である。

【図２】本実施形態の情報処理装置の機能構成を示すブ
ロック図である。

【図３】本実施形態の情報処理装置の処理手順を示すフ
ローチャートである。

【図４】本実施形態の大量文章単語頻度情報保持部のデ
ータ構成例を示す図である。

【図５】本実施形態の学習用単語頻度情報保持部のデー
タ構成例を示す図である。

【図６】本実施形態の評価用文章データに対しシステム
辞書を用いてアクセント処理を行った場合の処理結果を
示す図である。

【図７】本実施形態の評価用文章データに対し小型辞書
を用いてアクセント処理を行った場合の処理結果を示す
図である。

【図８】本実施形態のアクセント句相対精度の計算方法
を説明するための図である。

【符号の説明】

１０１初期設定保持部１０２形態素解析部１０３アクセント処理部１０４大量文章単語頻度情報保持部１０５学習用文章単語頻度情報保持部１０６アクセント句相対精度評価部１０７小型辞書保持部１０８大量文章データ１０９学習用文章データ１１０評価用文章データ１１１システム辞書１１２小型辞書

Claims

【特許請求の範囲】

【請求項１】予め登録されているシステム辞書に基づ
いて分野毎の小型辞書を作成する情報処理装置であっ
て、前記小型辞書を構成する単語数を指定する指定手段と、前記小型辞書を構成する単語を決定するための学習用文
書データと、大量文章データに基づいて、該小型辞書を
構成する構成手段と、前記小型辞書を評価するための評価用文章データに対
し、前記システム辞書を用いてアクセント処理を行な
い、第１アクセント句情報を出力する第１アクセント処
理手段と、前記評価用文章データに対し、前記小型辞書を用いてア
クセント処理を行い、第２アクセント句情報を出力する
第２アクセント処理手段と、前記第２アクセント句情報の前記第１アクセント句情報
に対する相対精度を算出する算出手段と、前記相対精度と前記小型辞書を対応づけて管理する管理
手段とを備えることを特徴とする情報処理装置。
【請求項２】前記指定手段は、前記小型辞書を構成す
る全単語数と、該全単語数の内、前記学習用文書データ
から得られる単語から選ぶ単語数との組を指定すること
を特徴とする請求項１に記載の情報処理装置。
【請求項３】前記構成手段は、前記学習用文書データ
及び前記大量文書データそれぞれに対し形態素解析を行
う形態素解析手段とを備え、前記形態素解析手段の形態素解析結果に基づいて、前記
小型辞書を構成することを特徴とする請求項１に記載の
情報処理装置。
【請求項４】前記相対精度は、前記第２アクセント情
報が前記第１アクセント情報と一致する度合を示すこと
を特徴とする請求項１に記載の情報処理装置。
【請求項５】前記学習用文章データ及び前記評価用文
章データは、分野毎に存在することを特徴とする請求項
１に記載の情報処理装置。
【請求項６】予め登録されているシステム辞書に基づ
いて分野毎の小型辞書を作成する情報処理方法であっ
て、前記小型辞書を構成する単語数を指定する指定工程と、前記小型辞書を構成する単語を決定するための学習用文
書データと、大量文章データに基づいて、該小型辞書を
構成する構成工程と、前記小型辞書を評価するための評価用文章データに対
し、前記システム辞書を用いてアクセント処理を行な
い、第１アクセント句情報を出力する第１アクセント処
理工程と、前記評価用文章データに対し、前記小型辞書を用いてア
クセント処理を行い、第２アクセント句情報を出力する
第２アクセント処理工程と、前記第２アクセント句情報の前記第１アクセント句情報
に対する相対精度を算出する算出工程と、前記相対精度と前記小型辞書を対応づけて記憶媒体に管
理する管理工程とを備えることを特徴とする情報処理方
法。
【請求項７】前記指定工程は、前記小型辞書を構成す
る全単語数と、該全単語数の内、前記学習用文書データ
から得られる単語から選ぶ単語数との組を指定すること
を特徴とする請求項６に記載の情報処理方法。
【請求項８】前記構成工程は、前記学習用文書データ
及び前記大量文書データそれぞれに対し形態素解析を行
う形態素解析工程とを備え、前記形態素解析工程の形態素解析結果に基づいて、前記
小型辞書を構成することを特徴とする請求項６に記載の
情報処理方法。
【請求項９】前記相対精度は、前記第２アクセント句
情報が前記第１アクセント情報と一致する度合を示すこ
とを特徴とする請求項６に記載の情報処理方法。
【請求項１０】前記学習用文章データ及び前記評価用
文章データは、分野毎に存在することを特徴とする請求
項６に記載の情報処理方法。
【請求項１１】予め登録されているシステム辞書に基
づいて分野毎の小型辞書を作成する情報処理のプログラ
ムコードが格納されたコンピュータ可読メモリであっ
て、前記小型辞書を構成する単語数を指定する指定工程のプ
ログラムコードと、前記小型辞書を構成する単語を決定するための学習用文
書データと、大量文章データに基づいて、該小型辞書を
構成する構成工程のプログラムコードと、前記小型辞書を評価するための評価用文章データに対
し、前記システム辞書を用いてアクセント処理を行な
い、第１アクセント句情報を出力する第１アクセント処
理工程のプログラムコードと、前記評価用文章データに対し、前記小型辞書を用いてア
クセント処理を行い、第２アクセント句情報を出力する
第２アクセント処理工程のプログラムコードと、前記第２アクセント句情報の前記第１アクセント句情報
に対する相対精度を算出する算出工程のプログラムコー
ドと、前記相対精度と前記小型辞書を対応づけて記憶媒体に管
理する管理工程とを備えることを特徴とするコンピュー
タ可読メモリ。