JP5838781B2

JP5838781B2 - 複合語読み表示方法及びプログラム，並びに読み生成装置

Info

Publication number: JP5838781B2
Application number: JP2011277874A
Authority: JP
Inventors: 英樹小島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2016-01-06
Anticipated expiration: 2031-12-20
Also published as: JP2013130904A

Description

本発明は，テキストの読み生成処理技術に関する。

テキストから読みを生成する処理は，音声合成機能を持つテキスト読み上げシステムや，読み仮名付加機能付きのテキスト表示システム等に組み込まれる。テキストの読み上げ精度や付加する読み仮名の精度は，読み生成処理の精度に依存する。

一般的に，テキストから読みを生成する読み生成装置では，単語の読みを登録した辞書を備えて，テキストを単語に分割し，分割した各単語に該当する読みを辞書から抽出している。複数の単語で構成される複合語は，一定の単語分割規則（例えば，複合語の文字列を先頭から辞書に登録された単語で分割する等の規則）に基づいて分割され，分割された単語の読みを連結して複合語の読みとしている。しかし，複合語は，単語への分割方法が複数あるため，誤った単語分割によって誤った読みが生成される場合がある。

そのため，読み生成装置で生成された複合語の読みを修正する作業が必要である。従来の読み修正作業では，ユーザが，表示されたテキストをチェックし，読みが誤っている箇所（例えば複合語）を見つけた場合に，テキスト上で修正範囲を指定し，修正ウインドウを呼び出し，修正ウインドウ上で正しい読みを入力するという作業を行っている。

なお，読み修正を支援する従来手法として，予め，単語に対して複数の読み仮名を対応付けた辞書を用意し，テキストデータ内の単語に複数の読み方がある場合に，その単語を強調表示する手法が知られている。

特開平６−２０２８４３号公報

上述する従来の読み修正作業では，ユーザは，表示されたテキストをチェックして読みの誤りを探し，見つけた誤りに対して正しい読みを入力する必要があった。

読み修正の作業の一具体例として，テキスト内に「畜産物価格安定法」という複合語が存在し，表示されたテキストでは，この複合語の読みが「ちくさんぶっかかくやすじょうほう」であったとする。「畜産物価格安定法」の正しい読みは「ちくさんぶつかかくあんていほう」である。しかし，読み生成処理において，本来「畜産／物／価格／安定／法」と分割されるべき複合語が，「畜産／物価／格安／定法」と誤って分割されていることに起因して「ちくさんぶっかかくやすじょうほう」となっている。

ユーザは，表示画面上でテキストの読みをチェックし，読み「ちくさんぶっかかくやすじょうほう」の誤りに気付いた場合に，マウスドラッグにより，読みが誤っている範囲（畜産物価格安定法）を指定し，修正ウインドウを呼び出し，修正ウインドウ上で，正しい読み「ちくさんぶつかかくあんていほう」を入力し，入力を確定させるといった作業手順を踏む必要があった。

テキストから誤り易い箇所の１つである複合語を探し出し，読みが正しいかを確認し，修正範囲を指定し，正しい読みを入力する作業は煩わしく，効率的な修正作業を妨げているという問題があった。特に，テキストが長文である場合には，誤った読みを探すことは容易ではなく，修正が必要な箇所を見落とす恐れもあった。

上述する従来手法では，複数語を構成する単語が，辞書に登録された複数の読みを持つ単語に該当すればその部分は強調表示される。しかし，この強調表示は，単に複数の読みを持つ単語に対する注意喚起であり，複合語としての読みの正誤に関係なく強調表示されるため，複合語の読み修正について手がかりとならない。

本発明の目的は，テキストの読みを生成する処理に関連して，読み修正作業を効率的に行えるようにするため，読みが誤りとなる可能性が高い複合語を見つけ易い態様で提示する処理方法，プログラム，及び処理装置を提供することである。

本願において発明の一態様として開示される複合語読み表示方法は，コンピュータが，品詞として，１文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記１文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて，テキストデータに形態素解析を行って該テキストデータの形態素列を生成し，前記テキストデータの形態素列から，前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出し，複合語として抽出した前記形態素列の部分について，該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定し，前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された，複合語として抽出した前記形態素列の部分を，前記テキストデータを表示する際に強調表示するものである。

また，発明の別の一態様として開示される読み生成装置は，品詞として，１文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記１文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて，テキストデータに形態素解析を行って該テキストデータの形態素列を生成する形態素列出力部と，前記テキストデータの形態素列から，前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出する複合語抽出部と，複合語として抽出した前記形態素列の部分について，該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定する複数分割可能複合語判定部と，前記複数分割可能複合語判定部による判定において，分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された，複合語として抽出した前記形態素列の部分を，前記テキストデータを表示する際に強調表示する表示処理部とを，備える。

開示する複合語読み表示方法によれば，テキストを表示する際に，読みが修正される可能性が高い複合語をユーザに分かりやすく表示形態で提示するため，ユーザは，表示されたテキストを見ながら効率的な読み修正作業を行うことができる。

本発明の一態様として開示する読み生成装置の一実施例における構成例を示す図である。連接規則で定義される連接可能性の定義例を示す図である読み生成装置の第１実施例における処理フロー例を示す図である。出力される形態素ラティスの例を示す図である。複合語として抽出された部分の形態素ラティスの例を示す図である。単漢字を削除した形態素ラティス例（その１）を示す図である。単漢字を削除した形態素ラティス例（その２）を示す図である。読み生成装置の第２実施例における処理フロー例を示す図である。分割結果の接続強度のスコア例を示す図である。読み生成装置の第３実施例における処理フロー例を示す図である。読み生成装置の第４実施例における処理フロー例を示す図である。表示テキストの表示例及び読み設定用画面の表示例を示す図である。読み生成装置のハードウェア構成の一例を示す図である。読み生成装置を適用する読み上げシステムの構成例を示す図である。

以下，本発明の一態様として開示する読み生成装置について説明する。

図１は，開示する読み生成装置の一実施例における構成例を示す図である。

読み生成装置１は，入力されるテキストデータ５１（以下，入力テキスト５１という）を受け付け，入力テキスト５１の読みを生成し，その際に，読みを誤り易い複合語を検出して，読み修正作業のために入力テキスト５１を表示画面に表示する場合に，表示するテキストデータ５２（以下，表示テキスト５２という）内で検出した複合語を強調表示する。

まず，読み生成装置１が検出する読みを誤り易い複合語について説明する。入力テキスト５１が「国際大会開始直前」と「畜産物価格安定法」という複合語を含むとする。

複合語「国際大会開始直前」を単語に分割する場合の結果は，以下に示すように複数ある。「国際／大会／開始／直前」，「国／際／大会／開始／直前」，「国際／大／会／開始／直前」，「国際／大会／開／始／直前」，「国際／大会／開始／直／前」，…，「国／際／大／会／開／始／直／前」。

同様に，複合語「畜産物価格安定法」を単語に分割する場合の結果も，以下のように複数ある。「畜産／物価／格安／定法」，「畜／産／物価／格安／定法」，「畜産／物／価／格安／定法」，「畜産／物価／格／安／定法」，「畜産／物価／格安／定／法」，「畜産／物／価格／安定／法」，「畜産／物／価／格／安定／法」，…，「畜／産物／価格／安定／法」，…，「畜／産／物／価／格／安／定／法」。

しかし，複合語「国際大会開始直前」の分割結果では，分割された要素が，複合語となる単語の品詞（名詞，接頭語，接尾語）を満たす分割結果は，「国際／大会／開始／直前」だけである。他の分割結果は，単語として成立せず，かつ，接頭語又は接尾語でもない１文字（形態素）を含むために適切ではない。したがって，複合語「国際大会開始直前」の分割結果は，実際には１つであり，その分割結果から読み（こくさい／たいかい／かいし／ちょくぜん）を生成しても，読みが誤りである可能性はかなり低い。

一方，複合語「畜産物価格安定法」の分割結果では，分割された要素が，複合語となる単語の品詞を満たす分割結果は，「畜産／物価／格安／定法」，「畜産／物／価格／安定／法」と複数存在する。分割結果が複数であれば，各々から読み（ちくさん／ぶっか／かくやす／じょうほう，ちくさん／ぶつ／かかく／あんてい／ほう）が生成でき，どちらかの１つの読みを採用した場合には，その読みが誤りである可能性がある程度高いことがわかる。

そこで，読み生成装置１は，入力テキスト５１に含まれる複合語についてすべてを強調表示するのではなく，分割結果が複数存在するような複合語を，生成した読みが誤りやすい複合語であると予測して，そのような複合語のみを強調表示する。これにより，入力テキスト５１中の読み誤りが生じ易い箇所をユーザに提示することができ，効率的な読み修正作業を実現することができる。

上記の処理機能を実現するため，読み生成装置１は，記憶部１０，形態素列出力部２，複合語検出部３，及びテキスト表示部４を備える。

記憶部１０は，形態素解析処理用の単語辞書１１及び連接規則を記憶する。

単語辞書１１は，単語毎に，基本形，読み，品詞，活用形等の情報を記述した情報である。単語辞書１１では，品詞として「単漢字」を定義している。単漢字は，上述のように，１文字で単語として成立せず，かつ，接尾語又は接頭語に該当しない，漢字表記の１文字である形態素である。テキスト中に単語辞書に未登録の語（未知語）が出現しても，１文字に分割して何らかの読みを付与するためである。

連接規則１２は，品詞間の連接可能性に関する規則を示す情報である。形態素間の連接可能性とは，先行の単語（形態素）と後続の単語（形態素）とが直に接続することがありうるかの度合い，又は，単語（形態素）が語頭又は語尾になりうるかの度合い等を品詞間の関係に基づいて示している。

形態素列出力部２は，読み生成装置１が受け付けた入力テキスト５１に，単語辞書１１及び連接規則１２を用いた形態素解析を行って，入力テキスト５１を形態素（単語）に分割し，分割した形態素の列を生成する。形態素列出力部２は，既存の形態素解析処理であればどのような処理方法であってもよく，解析結果をもとに，入力テキスト５１の分割可能なすべての形態素と形態素毎の情報（読み，品詞等），及び形態素間の連接可能性の度合いを含む形態素列を出力する。

複合語検出部３は，入力テキスト５１から複合語を検出するため，複合語抽出部３１及び複数分割可能複合語判定部３３を備える。

複合語抽出部３１は，形態素列出力部２が出力した入力テキスト５１の形態素列から，複合語を示す品詞列に該当する形態素の列の部分を複合語として抽出する。複合語を示す品詞列は，予め設定されており，例えば，「接頭語，名詞，接尾語」，「接頭語，名詞」，「名詞，接尾語」，「名詞」が連なる列であるとする。

複数分割可能複合語判定部３３は，複合語抽出部３１が抽出した複合語について，複合語に該当する形態素列を形態素へ分割する処理の結果（分割結果）が複数存在するかを判定する。

より詳しくは，複数分割可能複合語判定部３３は，複合語の分割結果から，分割した要素として複合語を示す品詞以外の形態素を含む分割結果を削除し，残りの分割結果が複数存在するかを判定する。例えば，複数分割可能複合語判定部３３は，品詞が単漢字である形態素を含む分割結果を削除し，残りの分割結果の個数を求めて，複合語の分割結果が複数存在するかを判定する。

または，複数分割可能複合語判定部３３は，連接規則１２に示される連接可能性の度合いに基づいて分割結果毎に接続強度を示すスコアを計算し，第１位のスコアと第２位のスコアとの差が予め設定した閾値以下であるときは，複合語の分割結果が複数存在すると判定する。

なお，複数分割可能複合語判定部３３は，分割結果から単漢字を含む分割結果を削除する処理を行ってから，上記のスコアを計算する処理を行うようにしてもよい。

テキスト表示部４は，読み確認用に，入力テキスト５１に対応する表示テキスト５２を表示し，ユーザ操作に応じて読みを修正する。テキスト表示部４は，表示処理部４１及び読み設定部４３を備える。

表示処理部４１は，形態素列出力部２が出力した入力テキスト５１の形態素列をもとに，各形態素の読みに基づいて漢字表記に読み仮名を付加した表示テキスト５２を生成して表示画面に表示し，分割結果が複数存在すると判定された複合語のみを強調表示の態様で表示する。

表示処理部４１は，強調表示の対象となる複合語については，１つの分割結果を採用し，採用した分割結果による読みを示す読み仮名を付加する。表示処理部４１は，複数分割可能複合語判定部３３が分割結果毎に接続強度のスコアを計算している場合に，第１位のスコアの分割結果を採用して複合語の読みを決定することができる。

強調表示の方法は，表示テキスト５２内で，強調表示の対象となる複合語を太字にする，フォントを変える，文字サイズを大きくする，文字色を変更する，下線を付与する，網掛けを施す等，様々な態様による表示方法を全て含むものとする。

また，表示処理部４１は，分割結果の個数又は分割結果の接続強度の第１位と第２位のスコア差に基づく区分に対応した強調表示の態様の設定を備えて，強調表示の対象となる複合語を，該当する区分に対応する多段階の態様で強調表示する。

読み設定部４３は，表示テキスト５２上で，ユーザ操作によって指定された複合語に対する読み（文字列）を受け付けてその複合語の読みに設定する。読み設定部４３は，指定された複合語の複数の分割結果に基づく読みの候補の一覧を示す読み設定用画面を表示し，ユーザ操作によって選択された読みの候補を指定された複合語の読みに設定する。

図２は，連接規則１２で定義される連接可能性の定義例を示す図である。

図２は，記憶部１０に記憶される連接規則１２で定義される品詞間の連接可能性，すなわち，先行語（形態素）と後続語（形態素）とが直に接続することがありうる度合いを品詞のタイプ毎に示す情報をテーブル化して示している。各数値（ポイント）は，連接可能性を示す値であり，数値が低いほど連接可能性の度合いが低いことを表している。

図２に示すテーブルでは，複合語に関連する品詞として，名詞，接尾語，接頭語，及び単漢字の品詞間の度合いを定義している。例えば，単語間の連接可能性が普通である度合いを“−３００（ポイント）”，連接可能性がかなり高い（単語の組み合わせがよく出現する）場合の度合いを“−２００”，連接可能性が低く（単語の組み合わせが不自然であって滅多に出現しない）場合の度合いを“−２０００”とする。また，片方が単漢字となる単語間の接続を優先的に扱わないようにするため，単漢字に関連する連接可能性の度合いを“−１０００”とする。

図２に示すテーブルの定義は，「接頭語」＋「名詞」や，「名詞」＋「名詞」の組み合わせでは，連接可能性が高く（−２００，−３００），組み合わせが成立しやすいことを表している。一方，「接頭語」＋「接尾語」の組み合わせ，語頭に「接尾語」がくること，語末に「接頭語」がくることは，連接可能性がかなり低く（−２０００），そのような組み合わせや状態がほとんど成立しないことを表している。

以下，読み生成装置１の処理動作を，複数の実施例としてより詳細に説明する。

〔第１実施例〕
第１実施例では，読み生成装置１は，入力テキスト５１から抽出した複合語の分割結果が複数存在するかの判定処理を，分割結果の個数に基づいて行い，強調表示する複合語を決定する。

図３は，読み生成装置１の第１実施例における処理フロー例を示す図である。

読み生成装置１の形態素列出力部２は，入力テキスト５１を単語辞書１１に登録されている形態素（単語）に分解し，分割した形態素同士の連接（連結）をラティス形状で表現した形態素列（以下，形態素ラティスという）を生成，出力する（ステップＳ１）。

形態素ラティスは，ノードとリンクとで構成されるネットワークであるということができる。形態素ラティスのノードは，入力テキスト５１の分割された形態素であり，少なくとも，表記，読み，品詞の情報を含む。形態素ラティスのリンクは，形態素間が連接することを示し，連接規則１２に基づいた連接可能性の度合いを含む。

図４は，出力される形態素ラティスの例を示す図である。図４に示す形態素ラティスにおいて，矩形はノードを表す。矩形内の文字列は，形態素の表記を，矩形の上部の文字列は形態素の品詞を表す。また，二重矩形は，品詞が単漢字のみである形態素を表す。矢印はリンクを表す。矢印の上部の数値は，連接可能性の度合いを表す。図４に示す形態素ラティスは，入力テキスト５１の一部である「国際大会開始直前」の部分について，どのような形態素に分割され，分割された形態素同士がどのように連結されるかを表している。

複合語抽出部３１は，形態素列出力部２が出力した形態素ラティスの先頭から，複合語を構成する品詞（名詞，接頭語，接尾語）の列に該当する形態素列の部分があるかを調べ，該当する部分（形態素列）を複合語として抽出する（ステップＳ２）。

図５は，複合語として抽出された部分の形態素列の例を示す図である。

図５に示す形態素ラティスは，入力テキスト５１に含まれる「畜産物価格安定法」の形態素列の部分が，複合語を示す品詞列（名詞，名詞，名詞，名詞）に該当し，複合語として抽出されたことを表す。

図５に示す形態素ラティスでも，ノード及びリンクは，図４と同様に表されている。また，形態素「物」のように，２つの品詞（名詞，接尾語）を持つ場合には，矩形の上部に“名詞／接尾語”と表し，連接可能性も，各品詞に対応する値“−３００／−３００”と表している。

なお，図４に示す形態素ラティス例は，入力テキスト５１に含まれる複合語「国際大会開始直前」の部分の形態素ラティスであるということもできる。

上記のステップＳ２の処理で，入力テキスト５１の形態素ラティスの形態素列の部分が複合語に該当すれば（ステップＳ３のＹ），ステップＳ４の処理へ進み，複合語に該当しなければ（ステップＳ３のＮ），ステップＳ８の処理へ進む。

ステップＳ４の処理において，複数分割可能複合語判定部３３は，形態素ラティスから，複合語を構成する品詞（接頭語，名詞，接尾語）に該当しない品詞として，品詞が「単漢字」のみの形態素を削除してラティスを再生成する。

複合語の形態素ラティスを形態素へ分割する場合に，分割単位に単漢字を含めると，１文字毎への分割が可能となり，どのような複合語であっても分割結果が複数存在することになる。しかし，単漢字への分割をするような分割結果は，複合語を構成する品詞（接頭語，名詞，接尾語）に該当しない品詞を含む複合語を許容していることになり，好ましいものではない。例えば，図４の形態素ラティスに示すように，複合語を，複合語を構成する品詞以外の品詞（単漢字）となる形態素へ分割する分割結果を含めると，本来の「国際／大会／開始／直前」という分割結果以外に大量の分割結果が得られてしまう。よって，単漢字への分割を含めた分割結果をもとにして，複数通りの分割が可能であるとみなすことは無理があるからである。

図６及び図７は，単漢字を削除した形態素ラティス例を示す図である。

図６は，図４に示す複合語「国際大会開始直前」の形態素ラティスから，単漢字に該当する形態素「国，際，大，会，開，始，直，前」を削除して再生成した後の形態素ラティスを示している。図６に示す形態素ラティス内では，語頭から語末までのパスが１通りであり，複合語「国際大会開始直前」を形態素へ分割する処理結果（分割結果）が１通りであることを示している。

図７は，図５に示す複合語「畜産物価格安定法」の形態素ラティスから，単漢字に該当する形態素「畜，安」を削除して再生性した後の形態素ラティスを示している。図７に示す形態素ラティス内では，語頭から語末までのパスが２通りであり，複合語「畜産物価格安定法」を形態素へ分割する分割結果が複数存在することを示している。

次に，複数分割可能複合語判定部３３は，抽出した複合語を形態素へ分割する場合の分割結果が複数存在するかを，形態素ラティス内のパス数をもとに判定する（ステップＳ５）。例えば，図６に示す複合語「国際大会開始直前」の形態素ラティスではパス数が“１”であり，分割結果が複数存在しないと判定され，図７に示す複合語「畜産物価格安定法」の形態素ラティスではパス数が“２”であり，分割結果が複数存在すると判定される。

分割結果が複数存在すると判定した場合には（ステップＳ６のＹ），ステップＳ７の処理へ進み，分割結果が複数存在しないと判定した場合には（ステップＳ６のＮ），ステップＳ８の処理へ進む。

ステップＳ７の処理では，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果が複数存在すると判定された複合語「畜産物価格安定法」を，予め設定された表示態様を用いて強調表示する。

また，ステップＳ８の処理では，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果が複数存在しないと判定された複合語「国際大会開始直前」を，他の部分と同じ表示態様で普通に表示する。

なお，上記のステップＳ７及びＳ８の処理において，表示処理部４１は，表示テキスト５２の表示処理において，複合語については，単漢字削除後に再生成した形態素ラティスのいずれかのパスをもとに読みを生成し，読み仮名を表示する。

第１実施例の処理により，読み生成装置１は，表示テキスト５２を表示する場合に，読みが誤り易い複合語「畜産物価格安定法」のみを，太字や異なるフォント等で強調表示するため，ユーザは，読み修正が必要な箇所を簡単に見つけることができる。

〔第２実施例〕
第２実施例では，読み生成装置１は，第１実施例と同様の処理により強調表示する複合語を決定し，さらに，分割結果数に応じた区分に対応する表示態様の設定を備えておき，求めた分割結果数に応じた多段階の態様で複合語を強調表示する。

表示処理部４１は，予め，分割結果の個数が“２”及び“３以上”の２つの区分に対応して，控えめな強調である強調表示１，及び，はっきりとした強調である強調表示２の設定を備える。なお，第２実施例において２つの区分を設定しているが，区分数に制限はない。

図８は，読み生成装置１の第２実施例における処理フロー例を示す図である。

図８の処理フローにおいて，ステップＳ１１〜Ｓ１５の処理は，図３に示す処理フローのステップＳ１〜Ｓ５の処理と同様であるので，処理の説明を省略し，ステップＳ１６の処理から説明する。

ステップＳ１６の処理において，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果が複数存在すると判定された複合語について，分割結果数（分割数）が“１”であれば（ステップＳ１６のＹ），その複合語を普通の態様で表示する（ステップＳ１７）。分割結果数が“１”でなく（ステップＳ１６のＮ），“２”であれば（ステップＳ１８のＹ），表示処理部４１は，その複合語を強調表示１の態様で表示する（ステップＳ１９）。分割結果数が“２”でなければ，すなわち“３以上”であれば（ステップＳ１８のＮ），表示処理部４１は，その複合語を強調表示２の態様で表示する（ステップＳ１１０）。

また，ステップＳ１３の処理で，複合語に該当しない箇所と判断した場合に，その箇所も普通の態様で表示する（ステップＳ１１１）。

第２実施例の処理により，読み生成装置１は，複合語の分割結果が２個であれば，誤りの可能性はあるがあまり高い可能性ではないとして，控えめな強調である強調表示１で表示し，分割結果が３個以上であれば，誤りの可能性がかなり高いとして，はっきりとした強調である強調表示２で表示する。これにより，ユーザに，読みが誤りとなる可能性の違いを提示することができる。

〔第３実施例〕
第３実施例では，読み生成装置１は，入力テキスト５１から抽出した複合語の分割結果が複数存在するかの判定処理を，分割結果の接続強度のスコア差に基づいて行い，強調表示する複合語を決定する。

図９は，分割結果の接続強度のスコア例を示す図である。

図９（Ａ）は，図４に示す複合語「国際大会開始直前」の形態素ラティスにおける各分割結果の接続強度のスコア例，図９（Ｂ）は，図５に示す複合語「畜産物価格安定法」の形態素ラティスにおける各分割結果の接続強度のスコア例を表している。

図９（Ａ）に示す接続強度のスコア例では，分割結果「国際／大会／開始／直前」のスコア“−１５００（ポイント）”に対して，他の分割結果のスコアが“−３９００”，“−５６００”，“−９０００”等のようにかなり低く，第１位のスコアと第２位とのスコア差が“２４００”と大きい。これは，第１位のスコアの分割結果「国際／大会／開始／直前」以外の第２位以下の分割結果に，複合語を構成しない品詞の形態素（単漢字）を含むことによる。

図９（Ｂ）に示す接続強度のスコア例では，ある１つの分割結果「畜産／物価／格安／定法」のスコアが“−１５００”，別の分割結果「畜産／物／価格／安定／法」のスコアが“−１６００”，他の分割結果のスコアが，“−３１００”，“−４６００”，“−９０００”等のように，スコアにばらつきがあるものの，第１位と第２位とのスコア差が“１００”と小さい。これは，第１位のスコアの分割結果「畜産／物価／格安／定法」，第２位のスコアの分割結果「畜産／物／価格／安定／法」が，複合語を構成する品詞の形態素のみであり，どちらの分割方法に基づく読みであっても正しい読みである可能性があることを示す。

分割結果の第１位と第２位のスコアの差が一定の値以上にひらいている場合には，第１位の分割結果に比べて第２位の分割結果の妥当性が低く，第１位と第２位のスコアの差が一定の値以内である場合には，第１位の分割結果と第２位の分割結果の妥当性にあまり差がないことになる。すなわち，分割結果の第１位と第２位とのスコアの差は，第１位の分割結果に対する第２位以下の分割結果の妥当性を示す指標となる。

そこで，複合語の形態素ラティスから得られるすべての分割結果（パス）の接続強度のスコアを計算し，第１位と第２とのスコア差が所定の閾値以下である場合に，分割結果が複数存在すると判定する。

図１０は，読み生成装置１の第３実施例における処理フロー例を示す図である。

図１０の処理フローのステップＳ２１〜Ｓ２３，Ｓ２７及びＳ２８の処理は，図３に示す処理フローのステップＳ１〜Ｓ３，Ｓ７及びＳ８の処理とそれぞれ同様であるので，処理の説明を省略し，ステップＳ２４からステップＳ２６までの処理について説明する。

ステップＳ２４の処理において，複数分割可能複合語判定部３３は，抽出された複合語の形態素ラティスから（図４，図５参照），ノード（形態素）間の連接可能性の値を合計して，分割結果毎すなわちパス毎の接続強度のスコアを計算する。なお，スコアの計算については後述する。

次に，複数分割可能複合語判定部３３は，各分割結果の接続強度のスコアを良い順に並べ，第１位のスコアと第２のスコアの差を求める（ステップＳ２５）。そして，第１位と第２のスコア差が所定の閾値（例えば，１０００）以下であれば，分割結果が複数存在すると判定して（ステップＳ２６のＹ），ステップＳ２７の処理へ進み，第１位と第２のスコア差が所定の閾値より大きければ，分割結果が複数存在しないと判定して（ステップＳ２６のＮ），ステップＳ２８の処理へ進む。

ステップＳ２７の処理では，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果が複数存在すると判定された複合語を，予め設定された表示態様を用いて強調表示する。また，ステップＳ２８の処理では，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果が複数存在しないと判定された複合語を，他の部分と同じ表示態様で普通に表示する。

第３実施例の処理では，読み生成装置１は，１つの分割結果（第１位のスコア）に対して他の分割結果（第２位以下）のスコアが近いと判定する場合に，スコア差が小さい分割結果の妥当性が高い可能性がある，すなわち，第１位の分割結果が誤りであり第２位の分割結果が正しいというケースである可能性が高いとして，強調表示を行う。これにより，読みの誤りが生じ易い箇所をユーザに提示して，効率的な読み修正作業を実現することができる。

〔第４実施例〕
第４実施例では，読み生成装置１は，第３実施例と同様の処理により強調表示する複合語を決定し，さらに，第１位と第２位の接続強度のスコア差に応じた区分に対応する表示態様の設定を備えておき，判定された区分に対応して多段階の態様で複合語を強調表示する。

表示処理部４１は，予め，複合語の分割結果の第１位と第２位とのスコア差に対する複数の閾値（閾値ｔｈ１＞閾値ｔｈ２）を設定しておき，第１位と第２位とのスコア差と２つの閾値との関係を示す区分に対応する表示態様の設定として，ひかえめな強調の態様である強調表示１，及びはっきりした強調の態様である強調表示２を備える。なお，第４実施例において２つの閾値とそれに対応する区分を設定しているが，閾値数に制限はない。

図１１は，読み生成装置１の第４実施例における処理フロー例を示す図である。

図１１の処理フローにおいて，ステップＳ３１〜Ｓ３５の処理は，図１０に示す処理フローのステップＳ２１〜Ｓ２５の処理と同様であるので，説明を省略する。

ステップＳ３６の処理において，表示処理部４１は，表示テキスト５２を表示する処理において，分割結果の第１位と第２位とのスコア差を閾値ｔｈ１と比較し，スコア差が閾値ｔｈ１より大きければ（ステップＳ３６のＹ），その複合語を普通の態様で表示する（ステップＳ３７）。第１位と第２位とのスコア差が閾値ｔｈ１以下であれば（ステップＳ３６のＮ），さらに，スコア差を閾値ｔｈ２と比較し，スコア差が閾値ｔｈ２より大きければ（ステップＳ３８のＹ），表示処理部４１は，その複合語を強調表示１の態様で表示する（ステップＳ３９）。第１位と第２位のスコア差が閾値ｔｈ２以下であれば（ステップＳ３８のＮ），表示処理部４１は，その複合語を強調表示２の態様で表示する（ステップＳ３１０）。

また，表示処理部４１は，ステップＳ３３の処理で，複合語に該当しないと判断された箇所も，普通の態様で表示する（ステップＳ３１１）。

〔読み修正処理〕
読み生成装置１は，上述の第１実施例〜第４実施例の処理によって表示テキスト５２が表示されると，ユーザによって選択された複合語の読みを修正する。

読み生成装置１の読み設定部４３は，ＧＵＩ（グラフィカル・ユーザ・インタフェース）を備え，表示中の表示テキスト５２において，ユーザがマウスクリック等の操作によって複合語が選択されると，読み設定用画面を表示し，選択された複合語の読みとなる文字列の入力を受け付ける。

読み設定部４３は，選択された複合語について，複数の分割結果各々にもとづく読みを示す読み候補を一覧表示し，確定ボタン等を備える読み設定用画面を表示する。

図１２は，表示テキストの表示例及び読み設定用画面の表示例を示す図である。

図１２（Ａ）は，表示テキスト５２の表示例を示す。表示テキスト５２は，入力テキスト５１のテキストデータ及び漢字表記の読み仮名を表示する。複合語の読み仮名は，採用された１つの分割結果に基づく読みをもとに付加される。図１２（Ａ）に示す表示例では，接続強度のスコアが計算されている場合に，第１位のスコアの分割結果が採用されている。

テキスト内の複合語のうち，分割結果が複数存在しないと判定された複合語「国際大会開始直前に」は普通の態様で表示され，分割結果が複数存在すると判定された複合語「畜産物価格安定法」は強調態様で表示される。

図１２（Ｂ）は，読み設定用画面の例を示す。読み設定用画面は，選択された複合語の読み候補の一覧，及び読みの設定を確定する確定ボタンを備える。

図１２（Ａ）に示す表示テキスト５２において，ユーザのマウスクリック操作等によって，複合語が選択されると，読み設定部４３は，選択された複合語の複数の分割結果各々に基づいて，分割された形態素の読みを連結した読み候補を生成し，読み設定用画面に表示する。表示される読み候補は，予め定めた個数の分割結果，一定値以上の接続強度のスコアの分割結果等から生成するようにしてもよい。

さらに，読み設定部４３は，接続強度のスコアが良い（高い）順に読み候補を表示することができる。

一例として，表示テキスト５２上で，複合語「畜産物価格安定法」が選択されると，読み設定部４３が，複合語「畜産物価格安定法」の分割結果の接続強度のスコアが第１位及び第２位のスコアの分割結果に基づく読みを生成し，「ちくさんぶっかかくやすじょうほう」，「ちくさんぶつかかくあんていほう」の順に表示する。

なお，読み設定用画面は，さらに，選択された複合語の読みとなる文字列を入力するための入力域を備えていてもよい。

図１２（Ｂ）に示す読み設定用画面で，ユーザ操作によって，読み候補が１つ選択され，確定ボタンが押下されると，読み設定部４３は，選択された読み候補を複合語の読みに設定する。さらに，表示処理部４１は，読み設定部４３で設定された読みを，選択された複合語の読み仮名として表示テキスト５２に表示する。

読み生成装置１によれば，ユーザは，修正したい複合語をマウスクリック等で選択するだけでよく，修正する範囲を設定する手間を省くことができる。さらに，ユーザは，読み設定用画面に表示された，正しい読みである可能性が高い読み候補からマウスクリック等で正しい読み候補を選択するだけでよく，複合語の正しい読みとなる文字列を入力する手間を省くことができる。

次に，読み生成装置１のハードウェア構成を説明する。

図１３は，読み生成装置１のハードウェア構成の一例を示す図である。

読み生成装置１は，図１３に示すコンピュータ１００として実施することができる。コンピュータ１００は，例えば，演算装置（ＣＰＵ：Central Processing Unit）１０１，メモリ１０２，入力装置１０３，出力装置１０４，外部記憶装置１０５，ネットワーク接続装置１０６，媒体駆動装置１０７などを備え，これらの各装置がバス１０８に接続される構成である。

ＣＰＵ１０１は，コンピュータ１００の全体を制御する。メモリ１０２は，プログラムの実行やデータ更新などの処理において，外部記憶装置１０５や可搬型のデータ記録媒体に記憶されているプログラムやデータを一時的に格納するＲＡＭ（Random Access Memory）などである。メモリ１０２は，ＣＰＵ１０１に実行させるＯＳ（Operating System）のプログラム，アプリケーションプログラム，ＣＰＵ１０１による処理に必要な各種データの少なくとも一部が一時的に格納される。

入力装置１０３は，例えばキーボード，マウス，タッチパネルなどである。出力装置１０４は，例えばディスプレイなどである。外部記憶装置１０５は，例えばハードディスク装置などである。外部記憶装置１０５には，プログラムやデータが格納される。ネットワーク接続装置１０６は，インターネットなどのネットワークに接続し，外部の情報処理装置とプログラムやデータの送受信を行う。媒体駆動装置１０７は，可搬型の記憶媒体に記憶されたプログラムやデータを読み出す。可搬記録媒体は，例えば，ＦＤ（フレキシブルディスク），ＣＤ−ＲＯＭ，ＤＶＤ，光磁気ディスクなどの媒体である。

コンピュータ１００のＣＰＵ１０１は，メモリ１０２に読み出したプログラムやデータを用いて，読み生成装置１の上述した実施例に示す処理を含む各種処理を実行する。すなわち，読み生成装置１の形態素列出力部２，複合語検出部３，テキスト表示部４等は，プログラムで構成することができ，これらの処理部に対応するプログラムがメモリ１０２にロードされてＣＰＵ１０１で実行されることにより，読み生成装置１の処理部が有する各機能が実現される。また，読み生成装置１の記憶部１０は，メモリ１０２，外部記憶装置１０５に対応する。

なお，読み生成装置１の各処理および機能を実現するプログラムおよびデータは，必ずしも外部記憶装置１０５に記憶されている必要はなく，可搬型記憶媒体に記憶されているプログラムおよびデータが，媒体駆動装置１０７によって読み取られ，メモリ１０２に格納されるようにしてもよい。さらに，ネットワーク接続装置１０６が，公衆回線，インターネット，ＬＡＮ，ＷＡＮなどのネットワークを介して他のコンピュータなどに記憶された上述のプログラムおよびデータを取得するようにしてもよい。

次に，読み生成装置１の適用例を説明する。

読み生成装置１は，テキスト読み上げシステムに適用することができる。

図１４は，読み生成装置１を適用する読み上げシステムの構成例を示す図である。

図１４に示すテキスト読み上げシステム６０は，読み生成装置１及び既存の音声合成装置６１を備える。

テキスト読み上げシステム６０において，入力テキスト５１は，読み生成装置１に入力される。読み生成装置１では，第１実施例〜第４実施例の処理において，入力テキスト５１の形態素列に基づく読みを生成し，表示テキスト５２をディスプレイ６２に表示する。さらに，読み生成装置１では，上述の読み修正処理において，入力デバイス６３を介したユーザ操作等によって，読みが誤りであった複合語の読みが設定される。

その後，音声合成装置６１では，読み生成装置１が出力した入力テキスト５１の読みを取得し，読みを音声合成してスピーカ６４から出力する。または，音声合成装置６１は，音声合成した音声データ７１をデータファイルとして出力する。

読み生成装置１をテキスト読み上げシステム６０に適用することによって，効率的な読み修正作業が可能となり，入力テキスト５１から変換される音声又は音声データの品質を向上させることができる。

さらに，読み生成装置１は，読み仮名付加システムに適用することができる。

読み生成装置１は，第１実施例〜第４実施例の処理及び読み修正処理により，入力テキスト５１の読みを生成し，入力テキスト５１の漢字表記の部分に読み仮名を付加した読み仮名付きテキストデータを出力する。

読み生成装置１を読み仮名付加システムとして実施することによって，効率的な読み修正作業が可能となり，入力テキスト５１から生成される読み仮名付きのテキストデータの品質を向上させることができる。

以上，本発明の一態様として開示した読み生成装置１について説明したが，本発明は上述する実施形態に限定されず，本発明の要旨を逸脱しない範囲において，各種の改良および変更を行ってもよいことは当然である。

読み生成装置１によれば，読みの誤りを生じやすい複合語として，形態素へ分割する結果が複数存在する複合語のみを強調表示することができる。これにより，ユーザが，読みのチェックが必要な箇所を容易に見つけられるようにしている。また，読み生成装置１によれば，表示テキスト５２上で選択された複合語に対して，正しい読みである可能性が高い読み候補を提示し，選択された読み候補によって読みを変更することができる。これにより，ユーザが，修正が必要な範囲を指定する手間を省けるようにしている。よって，開示する読み生成装置１は，効率的な読み修正作業の実現に寄与している。

１読み生成装置
１０記憶部
１１単語辞書
１２連接規則
２形態素列出力部
３複合語検出部
３１複合語抽出部
３３複数分割可能複合語判定部
４テキスト表示部
４１表示処理部
４３読み設定部
５１入力テキスト
５２表示テキスト

Claims

複合語の読みを表示する読み表示方法において，
コンピュータが，
品詞として，１文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記１文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて，テキストデータに形態素解析を行って該テキストデータの形態素列を生成し，
前記テキストデータの形態素列から，前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出し，
複合語として抽出した前記形態素列の部分について，該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定し，
前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された，複合語として抽出した前記形態素列の部分を，前記テキストデータを表示する際に強調表示する
ことを特徴とする複合語読み表示方法。
前記複合語の分割結果を判定する処理において，複合語として抽出した前記形態素列の部分に含まれる形態素間の連接可能性を示す値に基づいて，前記形態素列の部分の分割結果毎に接続強度のスコアを計算し，第１位のスコアと第２位のスコアとの差が予め設定した閾値以下である場合に前記形態素列の部分の分割結果が複数存在すると判定する
ことを特徴とする請求項１に記載の複合語読み表示方法。
複合語として抽出した前記形態素列の部分の分割結果を判定する処理において，前記第１位のスコアを得た分割結果を，該複合語として抽出した前記形態素列の部分の分割結果として出力する
ことを特徴とする請求項２に記載の複合語読み表示方法。
複合語として抽出した前記形態素列の部分の分割結果の個数に基づく区分に対応する強調表示の態様の設定を備えて，前記テキストデータを表示する処理において，複合語として抽出した前記形態素列の部分を該形態素列の部分の分割結果の個数に対応する態様で強調表示する
ことを特徴とする請求項１ないし請求項３のいずれか一項に記載の複合語読み表示方法。
前記分割結果のスコアの差に基づく区分に態様する強調表示の態様の設定を備えて，前記テキストデータを表示する処理において，複合語として抽出した前記形態素列の部分を，該形態素列の部分の分割結果の第１位のスコアと第２位のスコアの差に対応する態様で強調表示する
ことを特徴とする請求項２または請求項３に記載の複合語読み表示方法。
複合語の読みを生成する複合語読み表示プログラムであって，
コンピュータに，
品詞として，１文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記１文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて，テキストデータに形態素解析を行って該テキストデータの形態素列を生成し，
前記テキストデータの形態素列から，前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出し，
複合語として抽出した前記形態素列の部分について，該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定し，
前記判定において分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された，複合語として抽出した前記形態素列の部分を，前記テキストデータを表示する際に強調表示する処理を，実行させる
ことを特徴とする複合語読み表示プログラム。
読みを生成する読み生成装置において，
品詞として，１文字で単語として成立せずかつ接尾語または接頭語に該当しない漢字表記１文字の形態素で在ることを示す単漢字を含む品詞情報を定義した単語辞書を用いて，テキストデータに形態素解析を行って該テキストデータの形態素列を生成する形態素列出力部と，
前記テキストデータの形態素列から，前記単漢字以外の品詞で定められた複合語を示す品詞列に該当する形態素列の部分を複合語として抽出する複合語抽出部と，
複合語として抽出した前記形態素列の部分について，該形態素列の部分を形態素に分割した場合の各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在するかを判定する複数分割可能複合語判定部と，
前記複数分割可能複合語判定部による判定において，分割結果の中に各形態素の品詞列が前記複合語を示す品詞列に該当する分割結果が複数存在すると判定された，複合語として抽出した前記形態素列の部分を，前記テキストデータを表示する際に強調表示する表示処理部とを，備える
ことを特徴とする読み生成装置。