JP5838781B2 - 複合語読み表示方法及びプログラム,並びに読み生成装置 - Google Patents

複合語読み表示方法及びプログラム,並びに読み生成装置 Download PDF

Info

Publication number
JP5838781B2
JP5838781B2 JP2011277874A JP2011277874A JP5838781B2 JP 5838781 B2 JP5838781 B2 JP 5838781B2 JP 2011277874 A JP2011277874 A JP 2011277874A JP 2011277874 A JP2011277874 A JP 2011277874A JP 5838781 B2 JP5838781 B2 JP 5838781B2
Authority
JP
Japan
Prior art keywords
morpheme
compound word
reading
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011277874A
Other languages
English (en)
Other versions
JP2013130904A (ja
Inventor
英樹 小島
英樹 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011277874A priority Critical patent/JP5838781B2/ja
Publication of JP2013130904A publication Critical patent/JP2013130904A/ja
Application granted granted Critical
Publication of JP5838781B2 publication Critical patent/JP5838781B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は,テキストの読み生成処理技術に関する。
テキストから読みを生成する処理は,音声合成機能を持つテキスト読み上げシステムや,読み仮名付加機能付きのテキスト表示システム等に組み込まれる。テキストの読み上げ精度や付加する読み仮名の精度は,読み生成処理の精度に依存する。
一般的に,テキストから読みを生成する読み生成装置では,単語の読みを登録した辞書を備えて,テキストを単語に分割し,分割した各単語に該当する読みを辞書から抽出している。複数の単語で構成される複合語は,一定の単語分割規則(例えば,複合語の文字列を先頭から辞書に登録された単語で分割する等の規則)に基づいて分割され,分割された単語の読みを連結して複合語の読みとしている。しかし,複合語は,単語への分割方法が複数あるため,誤った単語分割によって誤った読みが生成される場合がある。
そのため,読み生成装置で生成された複合語の読みを修正する作業が必要である。従来の読み修正作業では,ユーザが,表示されたテキストをチェックし,読みが誤っている箇所(例えば複合語)を見つけた場合に,テキスト上で修正範囲を指定し,修正ウインドウを呼び出し,修正ウインドウ上で正しい読みを入力するという作業を行っている。
なお,読み修正を支援する従来手法として,予め,単語に対して複数の読み仮名を対応付けた辞書を用意し,テキストデータ内の単語に複数の読み方がある場合に,その単語を強調表示する手法が知られている。
特開平6−202843号公報
上述する従来の読み修正作業では,ユーザは,表示されたテキストをチェックして読みの誤りを探し,見つけた誤りに対して正しい読みを入力する必要があった。
読み修正の作業の一具体例として,テキスト内に「畜産物価格安定法」という複合語が存在し,表示されたテキストでは,この複合語の読みが「ちくさんぶっかかくやすじょうほう」であったとする。「畜産物価格安定法」の正しい読みは「ちくさんぶつかかくあんていほう」である。しかし,読み生成処理において,本来「畜産/物/価格/安定/法」と分割されるべき複合語が,「畜産/物価/格安/定法」と誤って分割されていることに起因して「ちくさんぶっかかくやすじょうほう」となっている。
ユーザは,表示画面上でテキストの読みをチェックし,読み「ちくさんぶっかかくやすじょうほう」の誤りに気付いた場合に,マウスドラッグにより,読みが誤っている範囲(畜産物価格安定法)を指定し,修正ウインドウを呼び出し,修正ウインドウ上で,正しい読み「ちくさんぶつかかくあんていほう」を入力し,入力を確定させるといった作業手順を踏む必要があった。
テキストから誤り易い箇所の1つである複合語を探し出し,読みが正しいかを確認し,修正範囲を指定し,正しい読みを入力する作業は煩わしく,効率的な修正作業を妨げているという問題があった。特に,テキストが長文である場合には,誤った読みを探すことは容易ではなく,修正が必要な箇所を見落とす恐れもあった。
上述する従来手法では,複数語を構成する単語が,辞書に登録された複数の読みを持つ単語に該当すればその部分は強調表示される。しかし,この強調表示は,単に複数の読みを持つ単語に対する注意喚起であり,複合語としての読みの正誤に関係なく強調表示されるため,複合語の読み修正について手がかりとならない。
本発明の目的は,テキストの読みを生成する処理に関連して,読み修正作業を効率的に行えるようにするため,読みが誤りとなる可能性が高い複合語を見つけ易い態様で提示する処理方法,プログラム,及び処理装置を提供することである。
本願において発明の一態様として開示される複合語読み表示方法は,コンピュータが,品詞として,1文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記1文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて,テキストデータに形態素解析を行って該テキストデータの形態素列を生成し,前記テキストデータの形態素列から,前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出し,複合語として抽出した前記形態素列の部分について,該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定し,前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された複合語として抽出した前記形態素列の部分を,前記テキストデータを表示する際に強調表示するものである。
また,発明の別の一態様として開示される読み生成装置は,品詞として,1文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記1文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて,テキストデータに形態素解析を行って該テキストデータの形態素列を生成する形態素列出力部と,前記テキストデータの形態素列から,前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出する複合語抽出部と,複合語として抽出した前記形態素列の部分について,該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定する複数分割可能複合語判定部と,前記複数分割可能複合語判定部による判定において,分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された複合語として抽出した前記形態素列の部分を,前記テキストデータを表示する際に強調表示する表示処理部とを,備える。
開示する複合語読み表示方法によれば,テキストを表示する際に,読みが修正される可能性が高い複合語をユーザに分かりやすく表示形態で提示するため,ユーザは,表示されたテキストを見ながら効率的な読み修正作業を行うことができる。
本発明の一態様として開示する読み生成装置の一実施例における構成例を示す図である。 連接規則で定義される連接可能性の定義例を示す図である 読み生成装置の第1実施例における処理フロー例を示す図である。 出力される形態素ラティスの例を示す図である。 複合語として抽出された部分の形態素ラティスの例を示す図である。 単漢字を削除した形態素ラティス例(その1)を示す図である。 単漢字を削除した形態素ラティス例(その2)を示す図である。 読み生成装置の第2実施例における処理フロー例を示す図である。 分割結果の接続強度のスコア例を示す図である。 読み生成装置の第3実施例における処理フロー例を示す図である。 読み生成装置の第4実施例における処理フロー例を示す図である。 表示テキストの表示例及び読み設定用画面の表示例を示す図である。 読み生成装置のハードウェア構成の一例を示す図である。 読み生成装置を適用する読み上げシステムの構成例を示す図である。
以下,本発明の一態様として開示する読み生成装置について説明する。
図1は,開示する読み生成装置の一実施例における構成例を示す図である。
読み生成装置1は,入力されるテキストデータ51(以下,入力テキスト51という)を受け付け,入力テキスト51の読みを生成し,その際に,読みを誤り易い複合語を検出して,読み修正作業のために入力テキスト51を表示画面に表示する場合に,表示するテキストデータ52(以下,表示テキスト52という)内で検出した複合語を強調表示する。
まず,読み生成装置1が検出する読みを誤り易い複合語について説明する。入力テキスト51が「国際大会開始直前」と「畜産物価格安定法」という複合語を含むとする。
複合語「国際大会開始直前」を単語に分割する場合の結果は,以下に示すように複数ある。「国際/大会/開始/直前」,「国/際/大会/開始/直前」,「国際/大/会/開始/直前」,「国際/大会/開/始/直前」,「国際/大会/開始/直/前」,…,「国/際/大/会/開/始/直/前」。
同様に,複合語「畜産物価格安定法」を単語に分割する場合の結果も,以下のように複数ある。「畜産/物価/格安/定法」,「畜/産/物価/格安/定法」,「畜産/物/価/格安/定法」,「畜産/物価/格/安/定法」,「畜産/物価/格安/定/法」,「畜産/物/価格/安定/法」,「畜産/物/価/格/安定/法」,…,「畜/産物/価格/安定/法」,…,「畜/産/物/価/格/安/定/法」。
しかし,複合語「国際大会開始直前」の分割結果では,分割された要素が,複合語となる単語の品詞(名詞,接頭語,接尾語)を満たす分割結果は,「国際/大会/開始/直前」だけである。他の分割結果は,単語として成立せず,かつ,接頭語又は接尾語でもない1文字(形態素)を含むために適切ではない。したがって,複合語「国際大会開始直前」の分割結果は,実際には1つであり,その分割結果から読み(こくさい/たいかい/かいし/ちょくぜん)を生成しても,読みが誤りである可能性はかなり低い。
一方,複合語「畜産物価格安定法」の分割結果では,分割された要素が,複合語となる単語の品詞を満たす分割結果は,「畜産/物価/格安/定法」,「畜産/物/価格/安定/法」と複数存在する。分割結果が複数であれば,各々から読み(ちくさん/ぶっか/かくやす/じょうほう,ちくさん/ぶつ/かかく/あんてい/ほう)が生成でき,どちらかの1つの読みを採用した場合には,その読みが誤りである可能性がある程度高いことがわかる。
そこで,読み生成装置1は,入力テキスト51に含まれる複合語についてすべてを強調表示するのではなく,分割結果が複数存在するような複合語を,生成した読みが誤りやすい複合語であると予測して,そのような複合語のみを強調表示する。これにより,入力テキスト51中の読み誤りが生じ易い箇所をユーザに提示することができ,効率的な読み修正作業を実現することができる。
上記の処理機能を実現するため,読み生成装置1は,記憶部10,形態素列出力部2,複合語検出部3,及びテキスト表示部4を備える。
記憶部10は,形態素解析処理用の単語辞書11及び連接規則を記憶する。
単語辞書11は,単語毎に,基本形,読み,品詞,活用形等の情報を記述した情報である。単語辞書11では,品詞として「単漢字」を定義している。単漢字は,上述のように,1文字で単語として成立せず,かつ,接尾語又は接頭語に該当しない,漢字表記の1文字である形態素である。テキスト中に単語辞書に未登録の語(未知語)が出現しても,1文字に分割して何らかの読みを付与するためである。
連接規則12は,品詞間の連接可能性に関する規則を示す情報である。形態素間の連接可能性とは,先行の単語(形態素)と後続の単語(形態素)とが直に接続することがありうるかの度合い,又は,単語(形態素)が語頭又は語尾になりうるかの度合い等を品詞間の関係に基づいて示している。
形態素列出力部2は,読み生成装置1が受け付けた入力テキスト51に,単語辞書11及び連接規則12を用いた形態素解析を行って,入力テキスト51を形態素(単語)に分割し,分割した形態素の列を生成する。形態素列出力部2は,既存の形態素解析処理であればどのような処理方法であってもよく,解析結果をもとに,入力テキスト51の分割可能なすべての形態素と形態素毎の情報(読み,品詞等),及び形態素間の連接可能性の度合いを含む形態素列を出力する。
複合語検出部3は,入力テキスト51から複合語を検出するため,複合語抽出部31及び複数分割可能複合語判定部33を備える。
複合語抽出部31は,形態素列出力部2が出力した入力テキスト51の形態素列から,複合語を示す品詞列に該当する形態素の列の部分を複合語として抽出する。複合語を示す品詞列は,予め設定されており,例えば,「接頭語,名詞,接尾語」,「接頭語,名詞」,「名詞,接尾語」,「名詞」が連なる列であるとする。
複数分割可能複合語判定部33は,複合語抽出部31が抽出した複合語について,複合語に該当する形態素列を形態素へ分割する処理の結果(分割結果)が複数存在するかを判定する。
より詳しくは,複数分割可能複合語判定部33は,複合語の分割結果から,分割した要素として複合語を示す品詞以外の形態素を含む分割結果を削除し,残りの分割結果が複数存在するかを判定する。例えば,複数分割可能複合語判定部33は,品詞が単漢字である形態素を含む分割結果を削除し,残りの分割結果の個数を求めて,複合語の分割結果が複数存在するかを判定する。
または,複数分割可能複合語判定部33は,連接規則12に示される連接可能性の度合いに基づいて分割結果毎に接続強度を示すスコアを計算し,第1位のスコアと第2位のスコアとの差が予め設定した閾値以下であるときは,複合語の分割結果が複数存在すると判定する。
なお,複数分割可能複合語判定部33は,分割結果から単漢字を含む分割結果を削除する処理を行ってから,上記のスコアを計算する処理を行うようにしてもよい。
テキスト表示部4は,読み確認用に,入力テキスト51に対応する表示テキスト52を表示し,ユーザ操作に応じて読みを修正する。テキスト表示部4は,表示処理部41及び読み設定部43を備える。
表示処理部41は,形態素列出力部2が出力した入力テキスト51の形態素列をもとに,各形態素の読みに基づいて漢字表記に読み仮名を付加した表示テキスト52を生成して表示画面に表示し,分割結果が複数存在すると判定された複合語のみを強調表示の態様で表示する。
表示処理部41は,強調表示の対象となる複合語については,1つの分割結果を採用し,採用した分割結果による読みを示す読み仮名を付加する。表示処理部41は,複数分割可能複合語判定部33が分割結果毎に接続強度のスコアを計算している場合に,第1位のスコアの分割結果を採用して複合語の読みを決定することができる。
強調表示の方法は,表示テキスト52内で,強調表示の対象となる複合語を太字にする,フォントを変える,文字サイズを大きくする,文字色を変更する,下線を付与する,網掛けを施す等,様々な態様による表示方法を全て含むものとする。
また,表示処理部41は,分割結果の個数又は分割結果の接続強度の第1位と第2位のスコア差に基づく区分に対応した強調表示の態様の設定を備えて,強調表示の対象となる複合語を,該当する区分に対応する多段階の態様で強調表示する。
読み設定部43は,表示テキスト52上で,ユーザ操作によって指定された複合語に対する読み(文字列)を受け付けてその複合語の読みに設定する。読み設定部43は,指定された複合語の複数の分割結果に基づく読みの候補の一覧を示す読み設定用画面を表示し,ユーザ操作によって選択された読みの候補を指定された複合語の読みに設定する。
図2は,連接規則12で定義される連接可能性の定義例を示す図である。
図2は,記憶部10に記憶される連接規則12で定義される品詞間の連接可能性,すなわち,先行語(形態素)と後続語(形態素)とが直に接続することがありうる度合いを品詞のタイプ毎に示す情報をテーブル化して示している。各数値(ポイント)は,連接可能性を示す値であり,数値が低いほど連接可能性の度合いが低いことを表している。
図2に示すテーブルでは,複合語に関連する品詞として,名詞,接尾語,接頭語,及び単漢字の品詞間の度合いを定義している。例えば,単語間の連接可能性が普通である度合いを“−300(ポイント)”,連接可能性がかなり高い(単語の組み合わせがよく出現する)場合の度合いを“−200”,連接可能性が低く(単語の組み合わせが不自然であって滅多に出現しない)場合の度合いを“−2000”とする。また,片方が単漢字となる単語間の接続を優先的に扱わないようにするため,単漢字に関連する連接可能性の度合いを“−1000”とする。
図2に示すテーブルの定義は,「接頭語」+「名詞」や,「名詞」+「名詞」の組み合わせでは,連接可能性が高く(−200,−300),組み合わせが成立しやすいことを表している。一方,「接頭語」+「接尾語」の組み合わせ,語頭に「接尾語」がくること,語末に「接頭語」がくることは,連接可能性がかなり低く(−2000),そのような組み合わせや状態がほとんど成立しないことを表している。
以下,読み生成装置1の処理動作を,複数の実施例としてより詳細に説明する。
〔第1実施例〕
第1実施例では,読み生成装置1は,入力テキスト51から抽出した複合語の分割結果が複数存在するかの判定処理を,分割結果の個数に基づいて行い,強調表示する複合語を決定する。
図3は,読み生成装置1の第1実施例における処理フロー例を示す図である。
読み生成装置1の形態素列出力部2は,入力テキスト51を単語辞書11に登録されている形態素(単語)に分解し,分割した形態素同士の連接(連結)をラティス形状で表現した形態素列(以下,形態素ラティスという)を生成,出力する(ステップS1)。
形態素ラティスは,ノードとリンクとで構成されるネットワークであるということができる。形態素ラティスのノードは,入力テキスト51の分割された形態素であり,少なくとも,表記,読み,品詞の情報を含む。形態素ラティスのリンクは,形態素間が連接することを示し,連接規則12に基づいた連接可能性の度合いを含む。
図4は,出力される形態素ラティスの例を示す図である。図4に示す形態素ラティスにおいて,矩形はノードを表す。矩形内の文字列は,形態素の表記を,矩形の上部の文字列は形態素の品詞を表す。また,二重矩形は,品詞が単漢字のみである形態素を表す。矢印はリンクを表す。矢印の上部の数値は,連接可能性の度合いを表す。図4に示す形態素ラティスは,入力テキスト51の一部である「国際大会開始直前」の部分について,どのような形態素に分割され,分割された形態素同士がどのように連結されるかを表している。
複合語抽出部31は,形態素列出力部2が出力した形態素ラティスの先頭から,複合語を構成する品詞(名詞,接頭語,接尾語)の列に該当する形態素列の部分があるかを調べ,該当する部分(形態素列)を複合語として抽出する(ステップS2)。
図5は,複合語として抽出された部分の形態素列の例を示す図である。
図5に示す形態素ラティスは,入力テキスト51に含まれる「畜産物価格安定法」の形態素列の部分が,複合語を示す品詞列(名詞,名詞,名詞,名詞)に該当し,複合語として抽出されたことを表す。
図5に示す形態素ラティスでも,ノード及びリンクは,図4と同様に表されている。また,形態素「物」のように,2つの品詞(名詞,接尾語)を持つ場合には,矩形の上部に“名詞/接尾語”と表し,連接可能性も,各品詞に対応する値“−300/−300”と表している。
なお,図4に示す形態素ラティス例は,入力テキスト51に含まれる複合語「国際大会開始直前」の部分の形態素ラティスであるということもできる。
上記のステップS2の処理で,入力テキスト51の形態素ラティスの形態素列の部分が複合語に該当すれば(ステップS3のY),ステップS4の処理へ進み,複合語に該当しなければ(ステップS3のN),ステップS8の処理へ進む。
ステップS4の処理において,複数分割可能複合語判定部33は,形態素ラティスから,複合語を構成する品詞(接頭語,名詞,接尾語)に該当しない品詞として,品詞が「単漢字」のみの形態素を削除してラティスを再生成する。
複合語の形態素ラティスを形態素へ分割する場合に,分割単位に単漢字を含めると,1文字毎への分割が可能となり,どのような複合語であっても分割結果が複数存在することになる。しかし,単漢字への分割をするような分割結果は,複合語を構成する品詞(接頭語,名詞,接尾語)に該当しない品詞を含む複合語を許容していることになり,好ましいものではない。例えば,図4の形態素ラティスに示すように,複合語を,複合語を構成する品詞以外の品詞(単漢字)となる形態素へ分割する分割結果を含めると,本来の「国際/大会/開始/直前」という分割結果以外に大量の分割結果が得られてしまう。よって,単漢字への分割を含めた分割結果をもとにして,複数通りの分割が可能であるとみなすことは無理があるからである。
図6及び図7は,単漢字を削除した形態素ラティス例を示す図である。
図6は,図4に示す複合語「国際大会開始直前」の形態素ラティスから,単漢字に該当する形態素「国,際,大,会,開,始,直,前」を削除して再生成した後の形態素ラティスを示している。図6に示す形態素ラティス内では,語頭から語末までのパスが1通りであり,複合語「国際大会開始直前」を形態素へ分割する処理結果(分割結果)が1通りであることを示している。
図7は,図5に示す複合語「畜産物価格安定法」の形態素ラティスから,単漢字に該当する形態素「畜,安」を削除して再生性した後の形態素ラティスを示している。図7に示す形態素ラティス内では,語頭から語末までのパスが2通りであり,複合語「畜産物価格安定法」を形態素へ分割する分割結果が複数存在することを示している。
次に,複数分割可能複合語判定部33は,抽出した複合語を形態素へ分割する場合の分割結果が複数存在するかを,形態素ラティス内のパス数をもとに判定する(ステップS5)。例えば,図6に示す複合語「国際大会開始直前」の形態素ラティスではパス数が“1”であり,分割結果が複数存在しないと判定され,図7に示す複合語「畜産物価格安定法」の形態素ラティスではパス数が“2”であり,分割結果が複数存在すると判定される。
分割結果が複数存在すると判定した場合には(ステップS6のY),ステップS7の処理へ進み,分割結果が複数存在しないと判定した場合には(ステップS6のN),ステップS8の処理へ進む。
ステップS7の処理では,表示処理部41は,表示テキスト52を表示する処理において,分割結果が複数存在すると判定された複合語「畜産物価格安定法」を,予め設定された表示態様を用いて強調表示する。
また,ステップS8の処理では,表示処理部41は,表示テキスト52を表示する処理において,分割結果が複数存在しないと判定された複合語「国際大会開始直前」を,他の部分と同じ表示態様で普通に表示する。
なお,上記のステップS7及びS8の処理において,表示処理部41は,表示テキスト52の表示処理において,複合語については,単漢字削除後に再生成した形態素ラティスのいずれかのパスをもとに読みを生成し,読み仮名を表示する。
第1実施例の処理により,読み生成装置1は,表示テキスト52を表示する場合に,読みが誤り易い複合語「畜産物価格安定法」のみを,太字や異なるフォント等で強調表示するため,ユーザは,読み修正が必要な箇所を簡単に見つけることができる。
〔第2実施例〕
第2実施例では,読み生成装置1は,第1実施例と同様の処理により強調表示する複合語を決定し,さらに,分割結果数に応じた区分に対応する表示態様の設定を備えておき,求めた分割結果数に応じた多段階の態様で複合語を強調表示する。
表示処理部41は,予め,分割結果の個数が“2”及び“3以上”の2つの区分に対応して,控えめな強調である強調表示1,及び,はっきりとした強調である強調表示2の設定を備える。なお,第2実施例において2つの区分を設定しているが,区分数に制限はない。
図8は,読み生成装置1の第2実施例における処理フロー例を示す図である。
図8の処理フローにおいて,ステップS11〜S15の処理は,図3に示す処理フローのステップS1〜S5の処理と同様であるので,処理の説明を省略し,ステップS16の処理から説明する。
ステップS16の処理において,表示処理部41は,表示テキスト52を表示する処理において,分割結果が複数存在すると判定された複合語について,分割結果数(分割数)が“1”であれば(ステップS16のY),その複合語を普通の態様で表示する(ステップS17)。分割結果数が“1”でなく(ステップS16のN),“2”であれば(ステップS18のY),表示処理部41は,その複合語を強調表示1の態様で表示する(ステップS19)。分割結果数が“2”でなければ,すなわち“3以上”であれば(ステップS18のN),表示処理部41は,その複合語を強調表示2の態様で表示する(ステップS110)。
また,ステップS13の処理で,複合語に該当しない箇所と判断した場合に,その箇所も普通の態様で表示する(ステップS111)。
第2実施例の処理により,読み生成装置1は,複合語の分割結果が2個であれば,誤りの可能性はあるがあまり高い可能性ではないとして,控えめな強調である強調表示1で表示し,分割結果が3個以上であれば,誤りの可能性がかなり高いとして,はっきりとした強調である強調表示2で表示する。これにより,ユーザに,読みが誤りとなる可能性の違いを提示することができる。
〔第3実施例〕
第3実施例では,読み生成装置1は,入力テキスト51から抽出した複合語の分割結果が複数存在するかの判定処理を,分割結果の接続強度のスコア差に基づいて行い,強調表示する複合語を決定する。
図9は,分割結果の接続強度のスコア例を示す図である。
図9(A)は,図4に示す複合語「国際大会開始直前」の形態素ラティスにおける各分割結果の接続強度のスコア例,図9(B)は,図5に示す複合語「畜産物価格安定法」の形態素ラティスにおける各分割結果の接続強度のスコア例を表している。
図9(A)に示す接続強度のスコア例では,分割結果「国際/大会/開始/直前」のスコア“−1500(ポイント)”に対して,他の分割結果のスコアが“−3900”,“−5600”,“−9000”等のようにかなり低く,第1位のスコアと第2位とのスコア差が“2400”と大きい。これは,第1位のスコアの分割結果「国際/大会/開始/直前」以外の第2位以下の分割結果に,複合語を構成しない品詞の形態素(単漢字)を含むことによる。
図9(B)に示す接続強度のスコア例では,ある1つの分割結果「畜産/物価/格安/定法」のスコアが“−1500”,別の分割結果「畜産/物/価格/安定/法」のスコアが“−1600”,他の分割結果のスコアが,“−3100”,“−4600”,“−9000”等のように,スコアにばらつきがあるものの,第1位と第2位とのスコア差が“100”と小さい。これは,第1位のスコアの分割結果「畜産/物価/格安/定法」,第2位のスコアの分割結果「畜産/物/価格/安定/法」が,複合語を構成する品詞の形態素のみであり,どちらの分割方法に基づく読みであっても正しい読みである可能性があることを示す。
分割結果の第1位と第2位のスコアの差が一定の値以上にひらいている場合には,第1位の分割結果に比べて第2位の分割結果の妥当性が低く,第1位と第2位のスコアの差が一定の値以内である場合には,第1位の分割結果と第2位の分割結果の妥当性にあまり差がないことになる。すなわち,分割結果の第1位と第2位とのスコアの差は,第1位の分割結果に対する第2位以下の分割結果の妥当性を示す指標となる。
そこで,複合語の形態素ラティスから得られるすべての分割結果(パス)の接続強度のスコアを計算し,第1位と第2とのスコア差が所定の閾値以下である場合に,分割結果が複数存在すると判定する。
図10は,読み生成装置1の第3実施例における処理フロー例を示す図である。
図10の処理フローのステップS21〜S23,S27及びS28の処理は,図3に示す処理フローのステップS1〜S3,S7及びS8の処理とそれぞれ同様であるので,処理の説明を省略し,ステップS24からステップS26までの処理について説明する。
ステップS24の処理において,複数分割可能複合語判定部33は,抽出された複合語の形態素ラティスから(図4,図5参照),ノード(形態素)間の連接可能性の値を合計して,分割結果毎すなわちパス毎の接続強度のスコアを計算する。なお,スコアの計算については後述する。
次に,複数分割可能複合語判定部33は,各分割結果の接続強度のスコアを良い順に並べ,第1位のスコアと第2のスコアの差を求める(ステップS25)。そして,第1位と第2のスコア差が所定の閾値(例えば,1000)以下であれば,分割結果が複数存在すると判定して(ステップS26のY),ステップS27の処理へ進み,第1位と第2のスコア差が所定の閾値より大きければ,分割結果が複数存在しないと判定して(ステップS26のN),ステップS28の処理へ進む。
ステップS27の処理では,表示処理部41は,表示テキスト52を表示する処理において,分割結果が複数存在すると判定された複合語を,予め設定された表示態様を用いて強調表示する。また,ステップS28の処理では,表示処理部41は,表示テキスト52を表示する処理において,分割結果が複数存在しないと判定された複合語を,他の部分と同じ表示態様で普通に表示する。
第3実施例の処理では,読み生成装置1は,1つの分割結果(第1位のスコア)に対して他の分割結果(第2位以下)のスコアが近いと判定する場合に,スコア差が小さい分割結果の妥当性が高い可能性がある,すなわち,第1位の分割結果が誤りであり第2位の分割結果が正しいというケースである可能性が高いとして,強調表示を行う。これにより,読みの誤りが生じ易い箇所をユーザに提示して,効率的な読み修正作業を実現することができる。
〔第4実施例〕
第4実施例では,読み生成装置1は,第3実施例と同様の処理により強調表示する複合語を決定し,さらに,第1位と第2位の接続強度のスコア差に応じた区分に対応する表示態様の設定を備えておき,判定された区分に対応して多段階の態様で複合語を強調表示する。
表示処理部41は,予め,複合語の分割結果の第1位と第2位とのスコア差に対する複数の閾値(閾値th1>閾値th2)を設定しておき,第1位と第2位とのスコア差と2つの閾値との関係を示す区分に対応する表示態様の設定として,ひかえめな強調の態様である強調表示1,及びはっきりした強調の態様である強調表示2を備える。なお,第4実施例において2つの閾値とそれに対応する区分を設定しているが,閾値数に制限はない。
図11は,読み生成装置1の第4実施例における処理フロー例を示す図である。
図11の処理フローにおいて,ステップS31〜S35の処理は,図10に示す処理フローのステップS21〜S25の処理と同様であるので,説明を省略する。
ステップS36の処理において,表示処理部41は,表示テキスト52を表示する処理において,分割結果の第1位と第2位とのスコア差を閾値th1と比較し,スコア差が閾値th1より大きければ(ステップS36のY),その複合語を普通の態様で表示する(ステップS37)。第1位と第2位とのスコア差が閾値th1以下であれば(ステップS36のN),さらに,スコア差を閾値th2と比較し,スコア差が閾値th2より大きければ(ステップS38のY),表示処理部41は,その複合語を強調表示1の態様で表示する(ステップS39)。第1位と第2位のスコア差が閾値th2以下であれば(ステップS38のN),表示処理部41は,その複合語を強調表示2の態様で表示する(ステップS310)。
また,表示処理部41は,ステップS33の処理で,複合語に該当しないと判断された箇所も,普通の態様で表示する(ステップS311)。
〔読み修正処理〕
読み生成装置1は,上述の第1実施例〜第4実施例の処理によって表示テキスト52が表示されると,ユーザによって選択された複合語の読みを修正する。
読み生成装置1の読み設定部43は,GUI(グラフィカル・ユーザ・インタフェース)を備え,表示中の表示テキスト52において,ユーザがマウスクリック等の操作によって複合語が選択されると,読み設定用画面を表示し,選択された複合語の読みとなる文字列の入力を受け付ける。
読み設定部43は,選択された複合語について,複数の分割結果各々にもとづく読みを示す読み候補を一覧表示し,確定ボタン等を備える読み設定用画面を表示する。
図12は,表示テキストの表示例及び読み設定用画面の表示例を示す図である。
図12(A)は,表示テキスト52の表示例を示す。表示テキスト52は,入力テキスト51のテキストデータ及び漢字表記の読み仮名を表示する。複合語の読み仮名は,採用された1つの分割結果に基づく読みをもとに付加される。図12(A)に示す表示例では,接続強度のスコアが計算されている場合に,第1位のスコアの分割結果が採用されている。
テキスト内の複合語のうち,分割結果が複数存在しないと判定された複合語「国際大会開始直前に」は普通の態様で表示され,分割結果が複数存在すると判定された複合語「畜産物価格安定法」は強調態様で表示される。
図12(B)は,読み設定用画面の例を示す。読み設定用画面は,選択された複合語の読み候補の一覧,及び読みの設定を確定する確定ボタンを備える。
図12(A)に示す表示テキスト52において,ユーザのマウスクリック操作等によって,複合語が選択されると,読み設定部43は,選択された複合語の複数の分割結果各々に基づいて,分割された形態素の読みを連結した読み候補を生成し,読み設定用画面に表示する。表示される読み候補は,予め定めた個数の分割結果,一定値以上の接続強度のスコアの分割結果等から生成するようにしてもよい。
さらに,読み設定部43は,接続強度のスコアが良い(高い)順に読み候補を表示することができる。
一例として,表示テキスト52上で,複合語「畜産物価格安定法」が選択されると,読み設定部43が,複合語「畜産物価格安定法」の分割結果の接続強度のスコアが第1位及び第2位のスコアの分割結果に基づく読みを生成し,「ちくさんぶっかかくやすじょうほう」,「ちくさんぶつかかくあんていほう」の順に表示する。
なお,読み設定用画面は,さらに,選択された複合語の読みとなる文字列を入力するための入力域を備えていてもよい。
図12(B)に示す読み設定用画面で,ユーザ操作によって,読み候補が1つ選択され,確定ボタンが押下されると,読み設定部43は,選択された読み候補を複合語の読みに設定する。さらに,表示処理部41は,読み設定部43で設定された読みを,選択された複合語の読み仮名として表示テキスト52に表示する。
読み生成装置1によれば,ユーザは,修正したい複合語をマウスクリック等で選択するだけでよく,修正する範囲を設定する手間を省くことができる。さらに,ユーザは,読み設定用画面に表示された,正しい読みである可能性が高い読み候補からマウスクリック等で正しい読み候補を選択するだけでよく,複合語の正しい読みとなる文字列を入力する手間を省くことができる。
次に,読み生成装置1のハードウェア構成を説明する。
図13は,読み生成装置1のハードウェア構成の一例を示す図である。
読み生成装置1は,図13に示すコンピュータ100として実施することができる。コンピュータ100は,例えば,演算装置(CPU:Central Processing Unit)101,メモリ102,入力装置103,出力装置104,外部記憶装置105,ネットワーク接続装置106,媒体駆動装置107などを備え,これらの各装置がバス108に接続される構成である。
CPU101は,コンピュータ100の全体を制御する。メモリ102は,プログラムの実行やデータ更新などの処理において,外部記憶装置105や可搬型のデータ記録媒体に記憶されているプログラムやデータを一時的に格納するRAM(Random Access Memory)などである。メモリ102は,CPU101に実行させるOS(Operating System)のプログラム,アプリケーションプログラム,CPU101による処理に必要な各種データの少なくとも一部が一時的に格納される。
入力装置103は,例えばキーボード,マウス,タッチパネルなどである。出力装置104は,例えばディスプレイなどである。外部記憶装置105は,例えばハードディスク装置などである。外部記憶装置105には,プログラムやデータが格納される。ネットワーク接続装置106は,インターネットなどのネットワークに接続し,外部の情報処理装置とプログラムやデータの送受信を行う。媒体駆動装置107は,可搬型の記憶媒体に記憶されたプログラムやデータを読み出す。可搬記録媒体は,例えば,FD(フレキシブルディスク),CD−ROM,DVD,光磁気ディスクなどの媒体である。
コンピュータ100のCPU101は,メモリ102に読み出したプログラムやデータを用いて,読み生成装置1の上述した実施例に示す処理を含む各種処理を実行する。すなわち,読み生成装置1の形態素列出力部2,複合語検出部3,テキスト表示部4等は,プログラムで構成することができ,これらの処理部に対応するプログラムがメモリ102にロードされてCPU101で実行されることにより,読み生成装置1の処理部が有する各機能が実現される。また,読み生成装置1の記憶部10は,メモリ102,外部記憶装置105に対応する。
なお,読み生成装置1の各処理および機能を実現するプログラムおよびデータは,必ずしも外部記憶装置105に記憶されている必要はなく,可搬型記憶媒体に記憶されているプログラムおよびデータが,媒体駆動装置107によって読み取られ,メモリ102に格納されるようにしてもよい。さらに,ネットワーク接続装置106が,公衆回線,インターネット,LAN,WANなどのネットワークを介して他のコンピュータなどに記憶された上述のプログラムおよびデータを取得するようにしてもよい。
次に,読み生成装置1の適用例を説明する。
読み生成装置1は,テキスト読み上げシステムに適用することができる。
図14は,読み生成装置1を適用する読み上げシステムの構成例を示す図である。
図14に示すテキスト読み上げシステム60は,読み生成装置1及び既存の音声合成装置61を備える。
テキスト読み上げシステム60において,入力テキスト51は,読み生成装置1に入力される。読み生成装置1では,第1実施例〜第4実施例の処理において,入力テキスト51の形態素列に基づく読みを生成し,表示テキスト52をディスプレイ62に表示する。さらに,読み生成装置1では,上述の読み修正処理において,入力デバイス63を介したユーザ操作等によって,読みが誤りであった複合語の読みが設定される。
その後,音声合成装置61では,読み生成装置1が出力した入力テキスト51の読みを取得し,読みを音声合成してスピーカ64から出力する。または,音声合成装置61は,音声合成した音声データ71をデータファイルとして出力する。
読み生成装置1をテキスト読み上げシステム60に適用することによって,効率的な読み修正作業が可能となり,入力テキスト51から変換される音声又は音声データの品質を向上させることができる。
さらに,読み生成装置1は,読み仮名付加システムに適用することができる。
読み生成装置1は,第1実施例〜第4実施例の処理及び読み修正処理により,入力テキスト51の読みを生成し,入力テキスト51の漢字表記の部分に読み仮名を付加した読み仮名付きテキストデータを出力する。
読み生成装置1を読み仮名付加システムとして実施することによって,効率的な読み修正作業が可能となり,入力テキスト51から生成される読み仮名付きのテキストデータの品質を向上させることができる。
以上,本発明の一態様として開示した読み生成装置1について説明したが,本発明は上述する実施形態に限定されず,本発明の要旨を逸脱しない範囲において,各種の改良および変更を行ってもよいことは当然である。
読み生成装置1によれば,読みの誤りを生じやすい複合語として,形態素へ分割する結果が複数存在する複合語のみを強調表示することができる。これにより,ユーザが,読みのチェックが必要な箇所を容易に見つけられるようにしている。また,読み生成装置1によれば,表示テキスト52上で選択された複合語に対して,正しい読みである可能性が高い読み候補を提示し,選択された読み候補によって読みを変更することができる。これにより,ユーザが,修正が必要な範囲を指定する手間を省けるようにしている。よって,開示する読み生成装置1は,効率的な読み修正作業の実現に寄与している。
1 読み生成装置
10 記憶部
11 単語辞書
12 連接規則
2 形態素列出力部
3 複合語検出部
31 複合語抽出部
33 複数分割可能複合語判定部
4 テキスト表示部
41 表示処理部
43 読み設定部
51 入力テキスト
52 表示テキスト

Claims (7)

  1. 複合語の読みを表示する読み表示方法において,
    コンピュータが,
    品詞として,1文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記1文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて,テキストデータに形態素解析を行って該テキストデータの形態素列を生成し,
    前記テキストデータの形態素列から,前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出し,
    複合語として抽出した前記形態素列の部分について,該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定し,
    前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された複合語として抽出した前記形態素列の部分を,前記テキストデータを表示する際に強調表示する
    ことを特徴とする複合語読み表示方法。
  2. 前記複合語の分割結果を判定する処理において,複合語として抽出した前記形態素列の部分に含まれる形態素間の連接可能性を示す値に基づいて,前記形態素列の部分の分割結果毎に接続強度のスコアを計算し,第1位のスコアと第2位のスコアとの差が予め設定した閾値以下である場合に前記形態素列の部分の分割結果が複数存在すると判定する
    ことを特徴とする請求項1に記載の複合語読み表示方法。
  3. 複合語として抽出した前記形態素列の部分の分割結果を判定する処理において,前記第1位のスコアを得た分割結果を,該複合語として抽出した前記形態素列の部分の分割結果として出力する
    ことを特徴とする請求項に記載の複合語読み表示方法。
  4. 複合語として抽出した前記形態素列の部分の分割結果の個数に基づく区分に対応する強調表示の態様の設定を備えて,前記テキストデータを表示する処理において,複合語として抽出した前記形態素列の部分該形態素列の部分の分割結果の個数に対応する態様で強調表示する
    ことを特徴とする請求項1ないし請求項3のいずれか一項に記載の複合語読み表示方法。
  5. 前記分割結果のスコアの差に基づく区分に態様する強調表示の態様の設定を備えて,前記テキストデータを表示する処理において,複合語として抽出した前記形態素列の部分を,該形態素列の部分の分割結果の第1位のスコアと第2位のスコアの差に対応する態様で強調表示する
    ことを特徴とする請求項または請求項に記載の複合語読み表示方法。
  6. 複合語の読みを生成する複合語読み表示プログラムであって,
    コンピュータに,
    品詞として,1文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記1文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて,テキストデータに形態素解析を行って該テキストデータの形態素列を生成
    前記テキストデータの形態素列から,前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出
    複合語として抽出した前記形態素列の部分について,該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定
    前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された複合語として抽出した前記形態素列の部分を,前記テキストデータを表示する際に強調表示する処理を,実行させる
    ことを特徴とする複合語読み表示プログラム。
  7. 読みを生成する読み生成装置において,
    品詞として,1文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記1文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて,テキストデータに形態素解析を行って該テキストデータの形態素列を生成する形態素列出力部と,
    前記テキストデータの形態素列から,前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出する複合語抽出部と,
    複合語として抽出した前記形態素列の部分について,該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定する複数分割可能複合語判定部と,
    前記複数分割可能複合語判定部による判定において,分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された複合語として抽出した前記形態素列の部分を,前記テキストデータを表示する際に強調表示する表示処理部とを,備える
    ことを特徴とする読み生成装置。
JP2011277874A 2011-12-20 2011-12-20 複合語読み表示方法及びプログラム,並びに読み生成装置 Expired - Fee Related JP5838781B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011277874A JP5838781B2 (ja) 2011-12-20 2011-12-20 複合語読み表示方法及びプログラム,並びに読み生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011277874A JP5838781B2 (ja) 2011-12-20 2011-12-20 複合語読み表示方法及びプログラム,並びに読み生成装置

Publications (2)

Publication Number Publication Date
JP2013130904A JP2013130904A (ja) 2013-07-04
JP5838781B2 true JP5838781B2 (ja) 2016-01-06

Family

ID=48908435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011277874A Expired - Fee Related JP5838781B2 (ja) 2011-12-20 2011-12-20 複合語読み表示方法及びプログラム,並びに読み生成装置

Country Status (1)

Country Link
JP (1) JP5838781B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481999B2 (ja) 2020-11-05 2024-05-13 株式会社東芝 辞書編集装置、辞書編集方法及び辞書編集プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093498B2 (ja) * 1992-12-28 2000-10-03 株式会社東芝 文書読み上げ装置
JPH07210556A (ja) * 1994-01-21 1995-08-11 Toshiba Corp 自然言語処理装置及び自然言語処理方法
JP3483230B2 (ja) * 1995-10-20 2004-01-06 株式会社リコー 発声情報作成装置
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP3855989B2 (ja) * 2003-11-10 2006-12-13 オムロン株式会社 日本語文解析装置および日本語文解析方法
JP4859101B2 (ja) * 2006-01-26 2012-01-25 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストに付与する発音情報の編集を支援するシステム

Also Published As

Publication number Publication date
JP2013130904A (ja) 2013-07-04

Similar Documents

Publication Publication Date Title
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
MXPA05001676A (es) Metodo y dispositivo para enfatizar visualmente los datos numericos contenidos en un documento electronico.
CN102193646B (zh) 人名候选词的生成方法及装置
US20150121200A1 (en) Text processing apparatus, text processing method, and computer program product
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111046627A (zh) 一种中文文字显示方法及系统
JP5838781B2 (ja) 複合語読み表示方法及びプログラム,並びに読み生成装置
JP2011238159A (ja) 計算機システム
JP5482236B2 (ja) プログラムおよび情報処理装置
JP2012511759A (ja) ユーザ指定された語句入力学習
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP5142395B2 (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体
JP5557469B2 (ja) 文字検索装置、文字検索システム、文字検索方法、入力端末装置、検索サーバおよびプログラム
KR101658598B1 (ko) 로마자 발음 표기를 매개로 하는 한글 기반의 중국어 입력 장치 및 방법
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JPH10207875A (ja) 表作成装置およびその方法
JP2010134766A (ja) 文書データ処理装置およびそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151026

R150 Certificate of patent or registration of utility model

Ref document number: 5838781

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees