JP2002162986A - 情報処理装置及びその方法、コンピュータ可読メモリ - Google Patents

情報処理装置及びその方法、コンピュータ可読メモリ

Info

Publication number
JP2002162986A
JP2002162986A JP2000360207A JP2000360207A JP2002162986A JP 2002162986 A JP2002162986 A JP 2002162986A JP 2000360207 A JP2000360207 A JP 2000360207A JP 2000360207 A JP2000360207 A JP 2000360207A JP 2002162986 A JP2002162986 A JP 2002162986A
Authority
JP
Japan
Prior art keywords
accent
dictionary
small
information
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000360207A
Other languages
English (en)
Inventor
Michio Aizawa
道雄 相澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000360207A priority Critical patent/JP2002162986A/ja
Publication of JP2002162986A publication Critical patent/JP2002162986A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 汎用性が高く、かつ精度の良い音声合成用辞
書を作成することができる情報処理装置及びその方法、
コンピュータ可読メモリを提供する。 【解決手段】 初期設定保持部101で、小型辞書11
2を構成する単語数を指定する。次に、小型辞書保持部
107で、小型辞書112を構成する単語を決定するた
めの学習用文書データ109と、大量文章データ108
に基づいて、該小型辞書112を構成する。アクセント
処理部103は、小型辞書112を評価するための評価
用文章データ110に対し、システム辞書111を用い
てアクセント処理を行ない、第1アクセント句情報を出
力し、また、評価用文章データ110に対し、小型辞書
112を用いてアクセント処理を行い、第2アクセント
句情報を出力する。そして、アクセント句相対精度評価
部106は、第2アクセント句情報の第1アクセント句
情報に対する相対精度を算出する。そして、小型辞書保
持部107は、相対精度と小型辞書112を対応づけて
管理する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、予め登録されてい
るシステム辞書に基づいて分野毎の小型辞書を作成する
情報処理装置及びその方法、コンピュータ可読メモリに
関するものである。
【0002】
【従来の技術】音声合成システムや音声認識システム等
では、音声認識用としてシステムの持つ数十万語レベル
のシステム辞書から数千語〜数万語の単語を取り出した
サブセットの小型辞書がよく使われる。これは、実行速
度の向上やメモリサイズの削減を目的としている。
【0003】例えば、コンピュータ関係の文書と経済関
係の文章では、異なる単語が出現する。しかし、小型辞
書では、語数を制限しているため様々な分野の単語(特
に、専門用語等)を同時に収録することができない。そ
のため、コンピュータ関係、経済関係等の適用分野に合
わせて小型辞書に登録する選択単語を変化させる必要が
ある。
【0004】適用分野に応じて、小型辞書に登録する単
語を選択する最も簡単な方法は、その適用分野の大量の
文章から単語の出現頻度を計算し、出現頻度の上位から
設定した語数までの単語を選ぶ方法がある。しかし、一
般に適用分野に応じた文章を大量に集めることは困難で
ある。そこで、新聞記事等の大量に入手できる文章と適
用分野の少量の文章に基づいて、小型辞書に登録する単
語を選択する方法を行っている。
【0005】例えば、特開2000−75892号で
は、大量にある過去のニュース原稿と、少量の最近のニ
ュース原稿から、小型辞書に登録する単語を選択してい
る。
【0006】
【発明が解決しようとする課題】しかしながら、従来の
特開2000−75892号で開示される方法は、単語
選択の評価基準としてパープレキシティを用いている。
パープレキシティはnグラムモデルを用いた統計的手法
に関係する値である。そのため、統計的手法を用いてい
ないシステムにおいては有効性が低い。
【0007】本発明は上記の課題を解決するためになさ
れたものであり、汎用性が高く、かつ精度の良い音声合
成用辞書を作成することができる情報処理装置及びその
方法、コンピュータ可読メモリを提供することを目的と
する。 〔発明の詳細な説明〕
【発明の属する技術分野】本発明は、予め登録されてい
るシステム辞書に基づいて分野毎の小型辞書を作成する
情報処理装置及びその方法、コンピュータ可読メモリに
関するものである。
【0008】
【従来の技術】音声合成システムや音声認識システム等
では、音声認識用としてシステムの持つ数十万語レベル
のシステム辞書から数千語〜数万語の単語を取り出した
サブセットの小型辞書がよく使われる。これは、実行速
度の向上やメモリサイズの削減を目的としている。
【0009】例えば、コンピュータ関係の文書と経済関
係の文章では、異なる単語が出現する。しかし、小型辞
書では、語数を制限しているため様々な分野の単語(特
に、専門用語等)を同時に収録することができない。そ
のため、コンピュータ関係、経済関係等の適用分野に合
わせて小型辞書に登録する選択単語を変化させる必要が
ある。
【0010】適用分野に応じて、小型辞書に登録する単
語を選択する最も簡単な方法は、その適用分野の大量の
文章から単語の出現頻度を計算し、出現頻度の上位から
設定した語数までの単語を選ぶ方法がある。しかし、一
般に適用分野に応じた文章を大量に集めることは困難で
ある。そこで、新聞記事等の大量に入手できる文章と適
用分野の少量の文章に基づいて、小型辞書に登録する単
語を選択する方法を行っている。
【0011】例えば、特開2000−75892号で
は、大量にある過去のニュース原稿と、少量の最近のニ
ュース原稿から、小型辞書に登録する単語を選択してい
る。
【0012】
【発明が解決しようとする課題】しかしながら、従来の
特開2000−75892号で開示される方法は、単語
選択の評価基準としてパープレキシティを用いている。
パープレキシティはnグラムモデルを用いた統計的手法
に関係する値である。そのため、統計的手法を用いてい
ないシステムにおいては有効性が低い。
【0013】本発明は上記の課題を解決するためになさ
れたものであり、汎用性が高く、かつ精度の良い音声合
成用辞書を作成することができる情報処理装置及びその
方法、コンピュータ可読メモリを提供することを目的と
する。
【0014】
【課題を解決するための手段】上記の目的を達成するた
めの本発明による情報処理装置は以下の構成を備える。
即ち、予め登録されているシステム辞書に基づいて分野
毎の小型辞書を作成する情報処理装置であって、前記小
型辞書を構成する単語数を指定する指定手段と、前記小
型辞書を構成する単語を決定するための学習用文書デー
タと、大量文章データに基づいて、該小型辞書を構成す
る構成手段と、前記小型辞書を評価するための評価用文
章データに対し、前記システム辞書を用いてアクセント
処理を行ない、第1アクセント句情報を出力する第1ア
クセント処理手段と、前記評価用文章データに対し、前
記小型辞書を用いてアクセント処理を行い、第2アクセ
ント句情報を出力する第2アクセント処理手段と、前記
第2アクセント句情報の前記第1アクセント句情報に対
する相対精度を算出する算出手段と、前記相対精度と前
記小型辞書を対応づけて管理する管理手段とを備える。
【0015】また、好ましくは、前記指定手段は、前記
小型辞書を構成する全単語数と、該全単語数の内、前記
学習用文書データから得られる単語から選ぶ単語数との
組を指定する。
【0016】また、好ましくは、前記構成手段は、前記
学習用文書データ及び前記大量文書データそれぞれに対
し形態素解析を行う形態素解析手段とを備え、前記形態
素解析手段の形態素解析結果に基づいて、前記小型辞書
を構成する。
【0017】また、好ましくは、前記相対精度は、前記
第2アクセント句情報が前記第1アクセント情報と一致
する度合を示す。
【0018】また、好ましくは、前記学習用文章データ
及び前記評価用文章データは、分野毎に存在する。
【0019】上記の目的を達成するための本発明による
情報処理方法は以下の構成を備える。即ち、予め登録さ
れているシステム辞書に基づいて分野毎の小型辞書を作
成する情報処理方法であって、前記小型辞書を構成する
単語数を指定する指定工程と、前記小型辞書を構成する
単語を決定するための学習用文書データと、大量文章デ
ータに基づいて、該小型辞書を構成する構成工程と、前
記小型辞書を評価するための評価用文章データに対し、
前記システム辞書を用いてアクセント処理を行ない、第
1アクセント句情報を出力する第1アクセント処理工程
と、前記評価用文章データに対し、前記小型辞書を用い
てアクセント処理を行い、第2アクセント句情報を出力
する第2アクセント処理工程と、前記第2アクセント句
情報の前記第1アクセント句情報に対する相対精度を算
出する算出工程と、前記相対精度と前記小型辞書を対応
づけて記憶媒体に管理する管理工程とを備える。
【0020】上記の目的を達成するための本発明による
コンピュータ可読メモリは以下の構成を備える。即ち、
予め登録されているシステム辞書に基づいて分野毎の小
型辞書を作成する情報処理のプログラムコードが格納さ
れたコンピュータ可読メモリであって、前記小型辞書を
構成する単語数を指定する指定工程のプログラムコード
と、前記小型辞書を構成する単語を決定するための学習
用文書データと、大量文章データに基づいて、該小型辞
書を構成する構成工程のプログラムコードと、前記小型
辞書を評価するための評価用文章データに対し、前記シ
ステム辞書を用いてアクセント処理を行ない、第1アク
セント句情報を出力する第1アクセント処理工程のプロ
グラムコードと、前記評価用文章データに対し、前記小
型辞書を用いてアクセント処理を行い、第2アクセント
句情報を出力する第2アクセント処理工程のプログラム
コードと、前記第2アクセント句情報の前記第1アクセ
ント句情報に対する相対精度を算出する算出工程のプロ
グラムコードと、前記相対精度と前記小型辞書を対応づ
けて記憶媒体に管理する管理工程とを備える。
【0021】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態を詳細に説明する。
【0022】図1は本実施形態の情報処理装置の構成を
示すブロック図である。
【0023】図1において、CPU1101はメインバ
ス1106を介して情報処理装置1000全体の制御を
実行するとともに、情報処理装置1000の外部に接続
される入力装置1110(例えば、マイク、イメージス
キャナ、記憶装置、ネットワーク回線を介して接続され
る他の情報処理装置、電話回線を介して接続されるファ
クシミリ等)を入力I/F(インタフェース)1104
を介して制御する。また、情報処理装置1000の外部
に接続される出力装置1111(例えば、スピーカ、プ
リンタ、モニタ、ネットワーク回線を介して接続される
他の情報処理装置、電話回線を介して接続されるファク
シミリ等)を出力I/F1105を介して制御する。ま
た、CPU1101は、KBDI/F(キーボードイン
タフェース)1107を介して入力部(例えば、キーボ
ード1112やポインティングデバイス1113やペン
1114)から入力された指示に従って、音声の入力、
音声認識処理、音声合成処理、等の一連の処理を実行す
る。更に、入力装置1110より入力された音声データ
や、キーボード1112やポインティングデバイス11
13やペン1114を用いて作成されたデータを表示す
る表示部1109をビデオI/F(インタフェース)1
108を介して制御する。
【0024】ROM1102は、CPU1101の各種
制御を実行する各種制御プログラムを記憶している。R
AM1103は、CPU1101によりOSや本発明を
実現するための制御プログラムを含むその他の制御プロ
グラムがロードされ実行される。また、制御プログラム
を実行するために用いられる各種作業領域、一時待避領
域として機能する。また、入力装置1110より入力さ
れた画像データや、キーボード1112やポインティン
グデバイス1113やペン1114を用いて作成された
画像データを、一旦、保持するVRAM(不図示)が構
成されている。
【0025】次に、本実施形態の情報処理装置の機能構
成について、図2を用いて説明する。
【0026】図2は本実施形態の情報処理装置の機能構
成を示すブロック図である。
【0027】101は、本装置を動作させるための初期
設定値を保持する初期設定保持部である。初期設定値
は、作成対象の小型辞書112の登録語数とその中で学
習用文書データ110に出現する単語の中から選択する
単語数の組である。この組を複数設定することもでき
る。
【0028】102は、入力文章データ(テキストデー
タ)に対し形態素解析を行う形態素解析部である。10
3は、入力文章データに対しアクセント処理を行ないア
クセント句情報を出力するアクセント処理部である。ア
クセント句情報は、読み、アクセント句の区切り、アク
セント型からなる。104は、大量文章データ108に
含まれる単語の頻度情報を保持する大量文章単語頻度情
報保持部である。
【0029】105は、学習用文章データ109に含ま
れる単語の頻度情報を保持する学習用文章単語頻度情報
保持部である。106は、アクセント句の相対精度を評
価するアクセント句相対精度評価部である。ここで、ア
クセント句の相対精度とはシステム辞書111で解析し
たアクセント句を正解とみなした場合に、そのアクセン
ト句と小型辞書112で解析したアクセント句が一致す
る度合(精度)を示す値のことである。
【0030】107は、本装置が作成した小型辞書11
2とアクセント句相対精度の組を保持する小型辞書保持
部である。108は、雑誌、新聞等の大量文章データで
ある。109は、複数種類の適用分野の文章データに対
し、各適用分野毎の小型辞書112の(小型辞書112
を構成する単語を決定するための)学習用に割り当てた
学習用文章データである。110は、複数種類の適用分
野の文章データに対し、各適用分野毎の小型辞書112
の評価用に割り当てた評価用文章データである。111
は、本装置が持つすべての単語を含んだシステム辞書で
ある。112は、後述する処理によって本装置が作成し
た適用分野毎の小型辞書である。
【0031】尚、大量文章単語頻度情報保持部104、
学習用文章単語頻度情報保持部105、アクセント句相
対精度評価部106、小型辞書保持部107、大量文章
データ108、学習用文章データ109、評価用文章デ
ータ110、システム辞書111、小型辞書112は、
例えば、ROM1102、RAM1103、あるいは記
憶装置として用いられる入力装置1110上で実現され
る。
【0032】次に、本実施形態の情報処理装置で実行さ
れる処理について、図3を用いて説明する。
【0033】図3は本実施形態の情報処理装置の処理手
順を示すフローチャートである。
【0034】まず、ステップS201で、作成対象の小
型辞書112の登録語数とその中で学習用文章データ1
09に出現する単語の中から選ぶ単語数との組を設定す
る。例えば、(30000,20000)は、登録語数
が30000語であり、学習用文章データ109から選
ぶ単語が20000語の辞書を作成することを設定す
る。残りの10000語は、大量文章データ108に出
現する単語の中から選ぶ。また、この組を複数個設定し
てもよい。
【0035】次に、ステップS202で、大量文章デー
タ108に対しシステム辞書111を用いて形態素解析
を行う。ステップS203で、ステップS202の形態
素解析結果を用いて、大量文章データ108に出現する
単語の頻度を計算し、頻度の高い順に大量文章単語頻度
情報保持部104に保持する。ここで、大量文章単語頻
度情報保持部104が保持するデータ構成例を、図4に
示す。図4に示すように、大量文書単語頻度情報保持部
104では、品詞別に、その品詞の見出しとその見出し
の出現頻度を対応付けて管理している。
【0036】次に、ステップS204で、学習用文章デ
ータ109に対しシステム辞書111を用いて形態素解
析を行う。ステップS205で、ステップS204の形
態素解析結果を用いて学習用文章データ109に出現す
る単語の頻度を計算し、頻度の高い順に学習用単語頻度
情報保持部105に保持する。ここで、学習用単語頻度
情報保持部105が保持するデータ構成例を、図5に示
す。図5に示すように、学習用単語頻度情報保持部10
5では、大量文書単語頻度情報保持部104と同様に、
品詞別に、その品詞の見出しとその見出しの出現頻度を
対応付けて管理している。
【0037】次に、ステップS206で、評価用文章デ
ータ110に対しシステム辞書111を用いてアクセン
ト処理を行う。この処理結果は、アクセント句相対精度
評価部106に保持する。ここで、アクセント句相対精
度評価部106が保持するデータ構成例を、図6に示
す。図6は、評価用文書データ110として、「半導体
メモリを搭載したメモリを販売する」、「パソコンで生
成したデータを再生する」、「単四型電池を使用する」
に対し、システム辞書111を用いてアクセント処理を
行った場合の処理結果を示している。処理結果は、評価
用文書データの読みと、アクセント句の切れ目と、アク
セント型からなり、図6では、読みを「カタカナ」、ア
クセント句の切れ目を「/」、アクセント型を「↓」で
表している。
【0038】次に、ステップS207で、ステップS2
01で設定した小型辞書112に登録する単語数とその
中で学習用文章データ109に出現する単語の中から選
ぶ単語数の組が残っているか否かを判定する。単語数の
組が残っていない場合(ステップS207でNO)、処
理を終了する。一方、単語数の組が残っている場合(ス
テップS207でYES)、ステップS208に進む。
【0039】次に、ステップS208で、単語数の組を
一つ取り出す。例として、単語数の組(30000,2
0000)を取り出した場合、学習用文章単語頻度情報
保持部105に保持されている単語の中から頻度が高い
もの上位20000語を取り出し、小型辞書112に登
録する。次に、大量文章単語頻度情報保持部104に保
持されている単語の中で頻度の高いものから小型辞書1
12に登録する。登録対象の単語がすでに登録されてい
る場合は、次の単語へ移る。そして、小型辞書112の
登録語数が30000語になるまで続ける。
【0040】次に、ステップS208で、評価用文章デ
ータ110に対し小型辞書112を用いてアクセント処
理を行う。このアクセント処理結果は、アクセント句相
対精度評価部106に保持する。ここで、アクセント句
相対精度評価部106が保持するデータ構成例を、図7
に示す。図7は、図6と同様に、評価用文書データ11
0として、「半導体メモリを搭載したメモリを販売す
る」、「パソコンで生成したデータを再生する」、「単
四型電池を使用する」に対し、小型辞書112を用いて
アクセント処理を行った場合の処理結果を示している。
図7では、評価用文書データ110の内、「半導体メモ
リを搭載したメモリを販売する」のアクセント処理結果
が、図6の場合と異なっていることがわかる。これは、
小型辞書112に「半導体」という単語が登録されてお
らず、「半導体」を「半導」と「体」の2文字として認
識されてしまった結果、その読みとして「ハンドウ」と
「カラダ」が生成されていることがわかる。
【0041】次に、ステップS209で、システム辞書
111を用いたアクセント処理(ステップS206)の
処理結果(図6)と小型辞書112を用いたアクセント
処理(ステップS208)の処理結果(図7)を用い
て、アクセント句相対精度を計算する。アクセント句相
対精度の値は、次式を用いて計算する。つまり、アクセ
ント句相対精度=(切れ目とアクセント型が一致したア
クセント句数)÷(システム辞書111を用いたアクセ
ント処理の処理結果によるアクセント句数)。
【0042】尚、切れ目とアクセント型が一致するアク
セント句はDPマッチング等の手法を用いることで計算
可能である。図8に一致するアクセント句の例を示す。
図中、実線で囲まれた部分がシステム辞書111でアク
セント処理した処理結果のアクセント句、破線で囲まれ
た部分が小型辞書112でアクセント処理した処理結果
のアクセント句を示す。この図8の場合のアクセント句
相対精度は、7÷10=0.7となる。
【0043】次に、ステップS210で、ステップS2
07で選択した小型辞書112とステップS209で計
算したアクセント句相対精度の値を小型辞書保持部10
7に保持する。
【0044】以上の処理を繰り返すことにより、小型辞
書保持部107に小型辞書112が複数個生成され、各
小型辞書112には、それぞれのアクセント句相対精度
が保持される。そして、このアクセント句相対精度によ
り、各小型辞書112の性能を図ることができる。つま
り、アクセント句相対精度に基づいて、ステップS20
1で設定する組を任意に変更することで、よりアクセン
ト句相対精度の高い組の小型辞書112を構成すること
ができる。
【0045】以上説明したように、本実施形態によれ
ば、新聞等の大量文章と適用分野の少量文章から、大規
模なシステム辞書のサブセットとしての小型辞書を適用
分野に適した形で作成することができる。また、アクセ
ント句相対精度を評価基準としているため、辞書を利用
するシステムのアルゴリズム(統計的手法、ルールベー
スなど)に依存しない。
【0046】尚、本発明は、複数の機器(例えば、ホス
トコンピュータ、インタフェース機器、リーダ、プリン
タなど)から構成されるシステムに適用しても、一つの
機器からなる装置(例えば、複写機、ファクシミリ装置
など)に適用してもよい。
【0047】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。
【0048】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。
【0049】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク、ハードディス
ク、光ディスク、光磁気ディスク、CD−ROM、CD
−R、磁気テープ、不揮発性のメモリカード、ROMな
どを用いることができる。
【0050】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレ
ーティングシステム)などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。
【0051】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0052】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図3に示すフローチャー
トに対応するプログラムコードが格納されることにな
る。
【0053】
【発明の効果】以上説明したように、本発明によれば、
汎用性が高く、かつ精度の良い音声合成用辞書を作成す
ることができる情報処理装置及びその方法、コンピュー
タ可読メモリを提供できる。
【図面の簡単な説明】
【図1】本実施形態の情報処理装置の構成を示すブロッ
ク図である。
【図2】本実施形態の情報処理装置の機能構成を示すブ
ロック図である。
【図3】本実施形態の情報処理装置の処理手順を示すフ
ローチャートである。
【図4】本実施形態の大量文章単語頻度情報保持部のデ
ータ構成例を示す図である。
【図5】本実施形態の学習用単語頻度情報保持部のデー
タ構成例を示す図である。
【図6】本実施形態の評価用文章データに対しシステム
辞書を用いてアクセント処理を行った場合の処理結果を
示す図である。
【図7】本実施形態の評価用文章データに対し小型辞書
を用いてアクセント処理を行った場合の処理結果を示す
図である。
【図8】本実施形態のアクセント句相対精度の計算方法
を説明するための図である。
【符号の説明】
101 初期設定保持部 102 形態素解析部 103 アクセント処理部 104 大量文章単語頻度情報保持部 105 学習用文章単語頻度情報保持部 106 アクセント句相対精度評価部 107 小型辞書保持部 108 大量文章データ 109 学習用文章データ 110 評価用文章データ 111 システム辞書 112 小型辞書

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 予め登録されているシステム辞書に基づ
    いて分野毎の小型辞書を作成する情報処理装置であっ
    て、 前記小型辞書を構成する単語数を指定する指定手段と、 前記小型辞書を構成する単語を決定するための学習用文
    書データと、大量文章データに基づいて、該小型辞書を
    構成する構成手段と、 前記小型辞書を評価するための評価用文章データに対
    し、前記システム辞書を用いてアクセント処理を行な
    い、第1アクセント句情報を出力する第1アクセント処
    理手段と、 前記評価用文章データに対し、前記小型辞書を用いてア
    クセント処理を行い、第2アクセント句情報を出力する
    第2アクセント処理手段と、 前記第2アクセント句情報の前記第1アクセント句情報
    に対する相対精度を算出する算出手段と、 前記相対精度と前記小型辞書を対応づけて管理する管理
    手段とを備えることを特徴とする情報処理装置。
  2. 【請求項2】 前記指定手段は、前記小型辞書を構成す
    る全単語数と、該全単語数の内、前記学習用文書データ
    から得られる単語から選ぶ単語数との組を指定すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 【請求項3】 前記構成手段は、前記学習用文書データ
    及び前記大量文書データそれぞれに対し形態素解析を行
    う形態素解析手段とを備え、 前記形態素解析手段の形態素解析結果に基づいて、前記
    小型辞書を構成することを特徴とする請求項1に記載の
    情報処理装置。
  4. 【請求項4】 前記相対精度は、前記第2アクセント情
    報が前記第1アクセント情報と一致する度合を示すこと
    を特徴とする請求項1に記載の情報処理装置。
  5. 【請求項5】 前記学習用文章データ及び前記評価用文
    章データは、分野毎に存在することを特徴とする請求項
    1に記載の情報処理装置。
  6. 【請求項6】 予め登録されているシステム辞書に基づ
    いて分野毎の小型辞書を作成する情報処理方法であっ
    て、 前記小型辞書を構成する単語数を指定する指定工程と、 前記小型辞書を構成する単語を決定するための学習用文
    書データと、大量文章データに基づいて、該小型辞書を
    構成する構成工程と、 前記小型辞書を評価するための評価用文章データに対
    し、前記システム辞書を用いてアクセント処理を行な
    い、第1アクセント句情報を出力する第1アクセント処
    理工程と、 前記評価用文章データに対し、前記小型辞書を用いてア
    クセント処理を行い、第2アクセント句情報を出力する
    第2アクセント処理工程と、 前記第2アクセント句情報の前記第1アクセント句情報
    に対する相対精度を算出する算出工程と、 前記相対精度と前記小型辞書を対応づけて記憶媒体に管
    理する管理工程とを備えることを特徴とする情報処理方
    法。
  7. 【請求項7】 前記指定工程は、前記小型辞書を構成す
    る全単語数と、該全単語数の内、前記学習用文書データ
    から得られる単語から選ぶ単語数との組を指定すること
    を特徴とする請求項6に記載の情報処理方法。
  8. 【請求項8】 前記構成工程は、前記学習用文書データ
    及び前記大量文書データそれぞれに対し形態素解析を行
    う形態素解析工程とを備え、 前記形態素解析工程の形態素解析結果に基づいて、前記
    小型辞書を構成することを特徴とする請求項6に記載の
    情報処理方法。
  9. 【請求項9】 前記相対精度は、前記第2アクセント句
    情報が前記第1アクセント情報と一致する度合を示すこ
    とを特徴とする請求項6に記載の情報処理方法。
  10. 【請求項10】 前記学習用文章データ及び前記評価用
    文章データは、分野毎に存在することを特徴とする請求
    項6に記載の情報処理方法。
  11. 【請求項11】 予め登録されているシステム辞書に基
    づいて分野毎の小型辞書を作成する情報処理のプログラ
    ムコードが格納されたコンピュータ可読メモリであっ
    て、 前記小型辞書を構成する単語数を指定する指定工程のプ
    ログラムコードと、 前記小型辞書を構成する単語を決定するための学習用文
    書データと、大量文章データに基づいて、該小型辞書を
    構成する構成工程のプログラムコードと、 前記小型辞書を評価するための評価用文章データに対
    し、前記システム辞書を用いてアクセント処理を行な
    い、第1アクセント句情報を出力する第1アクセント処
    理工程のプログラムコードと、 前記評価用文章データに対し、前記小型辞書を用いてア
    クセント処理を行い、第2アクセント句情報を出力する
    第2アクセント処理工程のプログラムコードと、 前記第2アクセント句情報の前記第1アクセント句情報
    に対する相対精度を算出する算出工程のプログラムコー
    ドと、 前記相対精度と前記小型辞書を対応づけて記憶媒体に管
    理する管理工程とを備えることを特徴とするコンピュー
    タ可読メモリ。
JP2000360207A 2000-11-27 2000-11-27 情報処理装置及びその方法、コンピュータ可読メモリ Pending JP2002162986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000360207A JP2002162986A (ja) 2000-11-27 2000-11-27 情報処理装置及びその方法、コンピュータ可読メモリ

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000360207A JP2002162986A (ja) 2000-11-27 2000-11-27 情報処理装置及びその方法、コンピュータ可読メモリ

Publications (1)

Publication Number Publication Date
JP2002162986A true JP2002162986A (ja) 2002-06-07

Family

ID=18831841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000360207A Pending JP2002162986A (ja) 2000-11-27 2000-11-27 情報処理装置及びその方法、コンピュータ可読メモリ

Country Status (1)

Country Link
JP (1) JP2002162986A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099741A (ja) * 2003-09-02 2005-04-14 Gf:Kk 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP2008146019A (ja) * 2006-11-16 2008-06-26 Seiko Epson Corp 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640164B2 (en) 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
JP2005099741A (ja) * 2003-09-02 2005-04-14 Gf:Kk 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP4515186B2 (ja) * 2003-09-02 2010-07-28 株式会社ジー・エフグループ 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP2008146019A (ja) * 2006-11-16 2008-06-26 Seiko Epson Corp 音声合成用辞書作成システム、半導体集積回路装置及び半導体集積回路装置の製造方法

Similar Documents

Publication Publication Date Title
US8392191B2 (en) Chinese prosodic words forming method and apparatus
KR100582968B1 (ko) 문자열 입력 장치 및 방법
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
CN111192570A (zh) 语言模型训练方法、系统、移动终端及存储介质
JP4738847B2 (ja) データ検索装置および方法
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JP2000259645A (ja) 音声処理装置及び音声データ検索装置
US20050033566A1 (en) Natural language processing method
JP2002162986A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
US8260614B1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
JP3953772B2 (ja) 読みがな付与装置およびプログラム
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2002366190A (ja) 統計的言語モデル生成装置および統計的言語モデル生成プログラム
US20020143525A1 (en) Method of decoding telegraphic speech
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3029403B2 (ja) 文章データ音声変換システム
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP2004303148A (ja) 情報処理装置
KR100397435B1 (ko) 음성인식시스템에서새로운등록단어처리가가능한클래식를이용한언어학적모델처리방법
JP2003122749A (ja) 単語分割装置およびプログラム
JP2001100789A (ja) 連続音声認識装置の音素認識性能測定装置
JP3216725B2 (ja) 文章構造解析装置
JP2002073070A (ja) 音声処理方法、音声処理装置及び記憶媒体並びに自然言語処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040610

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040610

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070202