JP2013137672A

JP2013137672A - 言語処理プログラム、言語処理装置および言語処理方法

Info

Publication number: JP2013137672A
Application number: JP2011288677A
Authority: JP
Inventors: Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-11
Anticipated expiration: 2031-12-28
Also published as: JP5853688B2

Abstract

【課題】単語の読みの正しさを高精度に判定できる。
【解決手段】第１の検索部１１は、第１の単語とこれに共起する第２の単語とを受け付け、第１のデータ群２１から、第１の単語と表記が一致する対象単語を含む第１のデータを少なくとも１つ抽出する。第２の検索部１２は、第２のデータ群２２から、第１のデータ群２１から抽出された第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む第２のデータを、それぞれ第１の抽出データとして抽出するとともに、第２の単語と同一の対象単語を含む第２のデータを、第２の抽出データとして抽出する。重複判定部１３は、第１の抽出データに含まれる共起単語と第２の抽出データに含まれる共起単語との重複数を判定する。
【選択図】図１

Description

本発明は、言語処理プログラム、言語処理装置および言語処理方法に関する。

近年、音声合成技術が向上し、音声合成処理によって生成された音声（合成音声）が肉声にかなり近づいてきたことから、各種の案内音声を、ナレータの音声から合成音声に切り替える事例が増えている。一方で、言語解析の精度は人間の言語理解の精度にはほど遠いことから、合成音声によって読み上げる文章を言語解析によって生成した際には、漢字やアルファベットの文字列などの読み誤りが発生することがある。このため、例えば、大量の文章を音声合成処理する場合には、読み誤りのチェック作業に長時間を要する。

このような問題に対して、入力された文章から、読み誤りの可能性がある箇所を検出し、表示や音声などによってユーザに通知する技術が考えられている。また、読み誤りの可能性がある箇所の判定方法としては、辞書に登録されていない単語を読み誤りの可能性がある箇所と判定する方法、未知語、固有名詞、アルファベットを含む箇所などを読み誤りの可能性がある箇所と判定する方法、文節間の共起関係を記憶した共起辞書を用いる方法などがある。

特開２００８−２５７１１６号公報特開２００７−１９９４１０号公報特開２００４−２０６６５９号公報特開平０２−２０１６４３号公報

上記のように、言語解析などによって文章に読みを付与する際には、付与される読みの誤りが発生する。このため、単語に付与された読みの正しさを、人手を介さずに高精度に判定できるようにすることが望まれている。特に、判定対象の文字とこれに共起する共起単語との組み合わせが、単語とその共起単語とがあらかじめ多数登録された共起辞書に登録されていない場合には、読みの正しさを判定できないという問題があった。

１つの側面では、本発明は、単語の読みの正しさを高精度に判定できるようにした言語処理プログラム、言語処理装置および言語処理方法を提供することを目的とする。

上記目的を達成するために、言語処理プログラムが提供される。コンピュータは、この言語処理プログラムに従って次のような処理を実行する。コンピュータは、第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対してこの対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、第１の単語と表記が一致する対象単語を含む第１のデータを少なくとも１つ抽出する。また、対象単語に対してこの対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、第１のデータ群から抽出された第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む第２のデータを、それぞれ第１の抽出データとして抽出するとともに、第２の単語と同一の対象単語を含む第２のデータを、第２の抽出データとして抽出する。また、第１の抽出データに含まれる共起単語と第２の抽出データに含まれる共起単語との重複数を判定する。

また、上記目的を達成するために、上記の言語処理プログラムを実行したコンピュータと同様の処理を実行する言語処理装置および言語処理方法が提供される。

１態様によれば、単語の読みの正しさを高精度に判定できる。

第１の実施の形態に係る言語処理装置の構成例および処理例を示す図である。第２の実施の形態に係る言語処理装置のハードウェア構成例を示す図である。第２の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。共起単語ＤＢに記憶される情報の例を示す図である。共起単語ＤＢに記憶される情報の例を示す図である。入力文字列として「間を行った」が入力された場合の処理例を示す図である。入力文字列として「会見を行った」が入力された場合の処理例を示す図である。入力文字列として「道路が空く」が入力された場合の処理例を示す図である。言語処理装置の処理手順の例を示すフローチャートである。信頼度出力処理の第１の処理例を示すフローチャートである。信頼度出力処理の第２の処理例を示すフローチャートである。信頼度出力処理の第３の処理例を示すフローチャートである。第３の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。かな漢字文章の第１の表示例を示す図である。かな漢字文章の第２の表示例を示す図である。かな漢字文章の第３の表示例を示す図である。第３の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。第４の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。第４の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。第５の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。第５の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。

以下、実施の形態について図面を参照して詳細に説明する。
〔第１の実施の形態〕
図１は、第１の実施の形態に係る言語処理装置の構成例および処理例を示す図である。

図１に示す言語処理装置１は、検証対象である第１の単語と、この第１の単語に共起する第２の単語との入力を受け、第１の単語についての読みの正しさに関する検証結果を出力可能な装置である。第１の単語としては、複数の読み方が可能な単語とすることができる。

第１の単語と第２の単語は、例えば、別途用意された共通の文章から抽出されたものである。また、第１の単語と第２の単語は、例えば、互いに係り受け関係にあるものであってもよい。図１では、入力される第１の単語および第２の単語として、それぞれ「行った」、「式典を」を例示している。なお、例えば、第１の単語と第２の単語とを関連付ける付属語（上記の例では助詞「を」）については、第１の単語と第２の単語の両方に属するものとしてもよい。

また、言語処理装置１が出力する検証結果としては、例えば、第１の単語の読み候補が、第２の単語と共起する場合の第１の単語の読みとして正しいかの度合いを示す情報、あるいは、第２の単語と共起する場合の第１の単語の読みとして正しいと推定される読みの情報などがある。

言語処理装置１は、第１の検索部１１、第２の検索部１２および重複判定部１３を備える。第１の検索部１１、第２の検索部１２および重複判定部１３の処理は、例えば、言語処理装置１が備えるＣＰＵ（Central Processing Unit）が所定のプログラムを実行することで実現される。

また、言語処理装置１は、第１のデータ群２１および第２のデータ群２２を参照可能である。第１のデータ群２１と第２のデータ群２２は、例えば共通の、あるいはそれぞれ個別の不揮発性記憶装置に記憶される。

第１のデータ群２１は、読みの情報が付与された対象単語に対して、この対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを、複数含んでいる。第１のデータは、データベースとしての第１のデータ群２１における１つのレコードに対応する。

図１の例では、第１のデータ群２１は、「行った」と表記される対象単語を含むレコード（第１のデータ）を含んでいる。ここで、「行った」と表記される単語は、「オコナッタ」および「イッタ」という２つの読み方が可能である。第１のデータ群２１では、このように複数の読み方が可能な同一表記の対象単語については、読み方ごとに別のレコード（第１のデータ）として登録される。

なお、第１の単語として複数の読み方が可能な単語のみが入力される場合には、第１のデータ群２１には、対象単語として、少なくとも、複数の読み方が可能な単語のみが登録されていればよい。

一方、第２のデータ群２２は、対象単語に対してこの対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを、複数含んでいる。第２のデータは、データベースとしての第２のデータ群２２における１つのレコードに対応する。また、第２のデータに含まれる対象単語には、第１のデータとは異なり、読みが付与されている必要はない。

第２のデータ群２２には、少なくとも、第１のデータ群２１において共起単語として登録された単語が、対象単語として登録される。図１の例では、第１のデータ群２１において「行った（オコナッタ）」の共起単語として登録された「実験を」という単語が、第２のデータ群２２において対象単語として登録されている。

なお、第２のデータ群２２に含まれる対象単語にも、読みの情報が付与されていてもよい。この場合、第１のデータ群２１と第２のデータ群２２とを共通化することができる。この場合には、第１のデータ群２１は、共通データベース内の一部のレコード群に対応し、第２のデータ群２２は、共通データベース内の残りのレコード群における少なくとも一部に対応する。

第１の検索部１１は、第１のデータ群２１から、入力された第１の単語と表記が一致する対象単語を含むレコード（第１のデータ）を少なくとも１つ抽出する。第１の単語が複数の読み方が可能な単語である場合、第１の検索部１１は、最大で読み方の数だけのレコードを抽出することができる。図１の例では、第１の検索部１１は、第１の単語「行った」と表記が一致する対象単語をそれぞれ含む２つのレコード２１ａ，２１ｂを、第１のデータ群２１から抽出する。

なお、例えば、入力される第１の単語にすでに読みが付与されており、付与された読みの確からしさを検証する場合には、第１の検索部１１は、対象単語の表記が第１の単語と一致し、かつ、読みが第１の単語に付与された読みと一致する１つのレコードを、第１のデータ群２１から抽出してもよい。

第２の検索部１２は、第１の検索部１１によって第１のデータ群２１から抽出された少なくとも１つのレコード（第１のデータ）に含まれる共起単語のそれぞれと同一の対象単語を含むレコード（第２のデータ）を、第２のデータ群２２から抽出する。このとき抽出されるレコードを「第１の抽出データ」と呼ぶことにする。図１の例では、第２の検索部１２は、第１のデータ群２１から抽出されたレコード２１ａに含まれる共起単語「実験を」と同一の対象単語を含むレコード２２ａを、第２のデータ群２２から第１の抽出データとして抽出する。

また、第２の検索部１２は、上記の第１の抽出データを抽出するとともに、第２の単語と同一の対象単語を含むレコード（第２のデータ）を、第２のデータ群２２から抽出する。このとき抽出されるレコードを「第２の抽出データ」と呼ぶことにする。図１の例では、第２の検索部１２は、第２の単語「式典を」と同一の対象単語を含むレコード２２ｂを、第２のデータ群２２から第２の抽出データとして抽出する。

なお、以上の第２の検索部１２の処理は、例えば、第１の検索部１１によって第１のデータ群２１から抽出されたレコードに含まれる共起単語と、第２の単語とが一致しない場合にのみ、実行されてもよい。なぜなら、第１のデータ群２１から抽出されたレコードに含まれる共起単語と、第２の単語とが一致した場合には、第２の単語と一致した共起単語を含む第１のデータ群２１のレコード（第１のデータ）に登録された読みが、第１の単語の読みとして正しい可能性が非常に高いからである。

重複判定部１３は、第２の検索部１２によって抽出された第１の抽出データに含まれる共起単語と、第２の検索部１２によって抽出された第２の抽出データに含まれる共起単語との重複数を判定する。図１の例では、重複判定部１３は、第１の抽出データとして抽出されたレコード２２ａに含まれる共起単語と、第２の抽出データとして抽出されたレコード２２ｂに含まれる共起単語との重複数を判定する。

ここで、第２のデータ群２２におけるレコード２２ａの対象単語は、第１のデータ群２１におけるレコード２１ａに共起単語として含まれるものの１つである。この場合、レコード２２ａに含まれる共起単語とレコード２２ｂに含まれる共起単語との重複数から、第１のデータ群２１におけるレコード２１ａの対象単語の読み「オコナッタ」が、第１の単語「行った」の読みとしてどの程度正しいかを推定することができる。

すなわち、レコード２２ａに含まれる共起単語とレコード２２ｂに含まれる共起単語との間で重複する共起単語が多いほど、レコード２２ａの対象単語「実験を」と、レコード２２ｂの対象単語「式典を」との関連性が深いと考えられる。そして、レコード２２ａの対象単語「実験を」が、第２の単語である「式典を」と関連性が深いと考えられる場合には、レコード２１ａにおいて「実験を」と対応付けられた読み「オコナッタ」は、第１の単語の読みとして正しい可能性が高いと推定できる。

従って、言語処理装置１は、例えば、第１の抽出データおよび第２の抽出データにそれぞれ含まれる共起単語の重複数に基づいて、第１の抽出データにおける対象単語を共起単語として含む第１のデータ群２１のレコードに登録された読みが、第１のデータの読みとしてどの程度正しいかを示す情報（信頼度）を出力することができる。この信頼度は、例えば、第１の抽出データおよび第２の抽出データにそれぞれ含まれる共起単語の重複数に基づく重複率から、計算されてもよい。また、言語処理装置１は、正しさの度合いが所定の度合い以上である場合には、第１の抽出データにおける対象単語を共起単語として含む第１のデータ群２１のレコードに登録された読みを、第１のデータについての正しい読みとして出力することもできる。

以上説明した言語処理装置１によれば、第１のデータ群２１に、第１の単語と同一表記の対象単語に、共起単語として第２の単語が対応付けられたレコードが存在しない場合であっても、第１の単語についての読みの正しさの度合いを高精度に検証することができる。また、第１のデータ群２１の各レコード（第１のデータ）に登録される共起単語が少ない場合でも、第１の単語についての読みの正確性を高精度に検証できるので、第１のデータ群２１の作成処理（すなわち、第１のデータにおける共起単語の収集処理）を簡略化することもできる。

〔第２の実施の形態〕
図２は、第２の実施の形態に係る言語処理装置のハードウェア構成例を示す図である。
第２の実施の形態に係る言語処理装置１００は、図２に示すようなコンピュータとして実現することができる。言語処理装置１００は、ＣＰＵ１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０８を介して、ＲＡＭ（Random Access Memory）１０２と複数の周辺機器が接続されている。

ＲＡＭ１０２は、言語処理装置１００の主記憶装置として使用される。ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ（Operating System）プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。

バス１０８に接続されている周辺機器としては、ＨＤＤ（Hard Disk Drive）１０３、グラフィックインタフェース１０４、入力インタフェース１０５、光学ドライブ装置１０６および通信インタフェース１０７がある。

ＨＤＤ１０３は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、言語処理装置１００の二次記憶装置として使用される。ＨＤＤ１０３には、ＯＳプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの他の種類の不揮発性記憶装置を使用することもできる。

グラフィックインタフェース１０４には、モニタ１０４ａが接続されている。グラフィックインタフェース１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１０４ａに表示させる。なお、モニタ１０４ａは、例えば、液晶ディスプレイである。

入力インタフェース１０５には、キーボード１０５ａ、マウス１０５ｂなどの入力装置が接続されている。入力インタフェース１０５は、入力装置からの出力信号をＣＰＵ１０１に送信する。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１０６ａに記録されたデータの読み取りを行う。光ディスク１０６ａは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１０６ａには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（Rewritable）などがある。

通信インタフェース１０７は、ネットワーク１０７ａを通じて、他の装置との間でデータを送受信する。
図３は、第２の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。

言語処理装置１００は、第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４および信頼度出力部１１５を備える。これらの各部の処理は、例えば、ＣＰＵ１０１によって所定のプログラムが実行されることで実現される。また、言語処理装置１００の不揮発性記憶装置（例えばＨＤＤ１０３）には、第１の共起単語ＤＢ（データベース）１２０および第２の共起単語ＤＢ１３０が記憶される。なお、第１の共起単語ＤＢ１２０および第２の共起単語ＤＢ１３０の少なくとも一方は、言語処理装置１００の外部に設置された不揮発性記憶装置に記憶されてもよい。

ここで、図４，図５は、共起単語ＤＢに記憶される情報の例を示す図である。
第１の共起単語ＤＢ１２０は図１の第１のデータ群２１に対応するものであり、第２の共起単語１３０は、図１の第２のデータ群２２に対応するものである。図４に示すように、第１の共起単語ＤＢ１２０には、対象単語の表記および読みごとにレコードが登録され、各レコードには、対象単語と共起する共起単語が少なくとも１つ登録されている。すなわち、第１の共起単語ＤＢ１２０では、複数の読み方が存在する対象単語については、読みごとに個別のレコードが登録される。

第１の共起単語ＤＢ１２０は、例えば、次のような手順で作成することができる。まず、コンピュータが、音声合成や機械翻訳などに使用される単語辞書から対象単語を抽出して、レコードを生成し、そのレコードに対象単語と読みを登録する。このとき、同一表記で複数の読み方が可能な単語については、個別のレコードに登録する。なお、言語処理装置１００での検証対象の単語が複数の読み方が可能な単語に限定される場合には、同一表記で複数の読み方が可能な単語のみが、対象単語として第１の共起単語ＤＢ１２０に登録されてもよい。

次に、コンピュータは、任意の文書データベースから、対象単語として登録した単語が使用されている文章を抽出する。コンピュータは、抽出した文章に対する形態素解析や構文解析を行うことにより、対象単語の係り受け関係にある単語を抽出し、対象単語に対応する共起単語としてレコードに登録する。次に、人手により、共起単語として抽出した単語のそれぞれについて、対応する対象単語の読みを判定し、判定した読みに対応するレコードに登録する。

一方、図５に示すように、第２の共起単語ＤＢ１３０には、対象単語の表記ごとにレコードが登録され、各レコードには、対象単語と共起する共起単語が少なくとも１つ登録されている。図１の第２のデータ群２２と同様に、第２の共起単語ＤＢ１３０には、少なくとも、第１の共起単語ＤＢ１２０において共起単語として登録された単語が、対象単語として登録される。

第２の共起単語ＤＢ１３０は、例えば、次のような手順で作成することができる。まず、コンピュータは、第１の共起単語ＤＢ１２０に共起単語として登録された単語を抽出し、抽出した単語を表記ごとに異なるレコードに登録する。このとき、第１の共起単語ＤＢ１２０に共起単語として登録されていない単語についても、例えば、ニュース記事や単語辞書などから抽出して、第１の共起単語ＤＢ１２０のレコードに対象単語として登録してもよい。

次に、コンピュータは、任意の文書データベースから、対象単語として登録した単語が使用されている文章を抽出する。コンピュータは、抽出した文章に対する形態素解析や構文解析を行うことにより、対象単語の係り受け関係にある単語を抽出し、対象単語に対応する共起単語としてレコードに登録する。このように、第２の共起単語ＤＢ１３０については、読みを登録する必要がないことから、人手を介さずに、コンピュータなどの機械によって自動的に作成することができる。

以下、図３に戻って説明する。
第１の検索部１１１には、検証対象の単語と、この単語と共起する共起単語とを含む入力文字列ＩＮが入力される。第１の検索部１１１は、入力文字列ＩＮに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第１の共起単語ＤＢ１２０から抽出する。

判定部１１２は、第１の検索部１１１によって第１の共起単語ＤＢ１２０から抽出されたレコードに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語があった場合、判定部１１２は、その旨を信頼度出力部１１５に通知する。一方、一致する共起単語がなかった場合、判定部１１２は、その旨を第２の検索部１１３に通知する。

第２の検索部１１３は、判定部１１２から一致する共起単語がなかったことの通知を受けると、第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコードに含まれる共起単語を取得する。第２の検索部１１３は、取得した共起単語のそれぞれを対象単語として含むレコードを、第２の共起単語ＤＢ１３０から抽出する。以下、このとき抽出される各レコードを「第１の抽出レコード」と呼ぶ。

これとともに、第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語を対象単語として含むレコードを、第２の共起単語ＤＢ１３０から抽出する。以下、このとき抽出されるレコードを「第２の抽出レコード」と呼ぶ。

重複率計算部１１４は、第２の検索部１１３によって抽出された第１の抽出レコードのそれぞれに含まれる共起単語と、第２の検索部１１３によって抽出された第２の抽出レコードに含まれる共起単語との重複率を、第１の抽出レコードごとに計算する。本実施の形態では、重複率は、第２の抽出レコードに含まれる共起単語の総数に対する、１つの第１の抽出レコードと第２の抽出レコードとの間で重複する共起単語の数の割合として計算される。また、算出された割合の値は、パーセント（％）の値に変換される。

信頼度出力部１１５は、入力文字列ＩＮに含まれる検証対象単語の読みが、入力文字列ＩＮに含まれる共起単語と共起した場合の検証対象単語の読みとして正しいかの度合いを示す信頼度を出力する。信頼度出力部１１５は、例えば、検証対象単語の読みとその信頼度とをペアにして出力する。また、信頼度出力部１１５は、読みの情報のみ、あるいは信頼度のみを出力してもよい。読みの情報のみが出力される場合とは、例えば、検証対象単語についての複数の読みのうち、入力文字列ＩＮ内の共起単語と組み合わせた場合に正しいと判定された読みが出力されることになる。一方、信頼度のみが出力される場合とは、例えば後述するように、検証対象単語にあらかじめ読みが付与されており、その読みの正しさが信頼度として出力される。

信頼度は、例えば、次のように出力される。
判定部１１２から一致する共起単語があった旨の通知を受けた場合には、信頼度出力部１１５は、入力文字列ＩＮに含まれる共起単語と同一の共起単語を含む第１の共起単語ＤＢ１２０のレコードから、読みの情報を抽出する。信頼度出力部１１５は、抽出した読みについての信頼度として、所定の最大値（例えば１００％）を出力する。

一方、判定部１１２により一致する共起単語がないと判定された場合には、信頼度出力部１１５は、重複率計算部１１４で算出された重複率の値を取得し、これらの重複率に基づいて信頼度を判定する。信頼度出力部１１５は、重複率計算部１１４によって第１の抽出レコードごとに算出された重複率から、最大の重複率を判定する。信頼度出力部１１５は、最大の重複率の算出に用いられた第１の抽出レコードに含まれる対象単語を共起単語として含む、第１の共起単語ＤＢ１２０のレコードを選択する。信頼度出力部１１５は、選択したレコードに含まれる読みについての信頼度として、最大と判定した重複率に基づく値を出力する。この場合の信頼度は、例えば、最大と判定した重複率がそのまま出力されてもよい。あるいは、最大と判定した重複率を、判定部１１２が一致する共起単語があったと判定した場合の信頼度（最大値）を上限とした値に変換することで、信頼度が計算されてもよい。

次に、図６〜図８を用い、検証対象単語の具体例を挙げて、言語処理装置１００における処理について説明する。以下の図６〜図８においては、左上側に第１の共起単語ＤＢ１２０に含まれる一部のレコードを示し、右上側に第２の共起単語ＤＢ１３０に含まれる一部のレコードを示す。また、下側には、第２の共起単語ＤＢ１３０のレコードに含まれる共起単語の数を、楕円の大きさによって模式的に表す。また、楕円同士が重なり合う領域の大きさは、各楕円に対応するレコードの間での共起単語の重複数を示す。なお、図６〜図８の処理例は、２０万文程度の文章を基に作成した第２の共起単語ＤＢ１３０を用いて処理を行った場合の例である。

まず、図６は、入力文字列として「間を行った」が入力された場合の処理例を示す。この入力文字列ＩＮにおいては、検証対象単語は「を行った」であり、共起単語は「間を」である。

第１の検索部１１１は、第１の共起単語ＤＢ１２０から、検証対象単語「を行った」と同一表記の対象単語を含むレコードを抽出する。図６の例では、読み「オオコナッタ」を含むレコード１２１ａと、読み「オイッタ」を含むレコード１２１ｂとが抽出される。

判定部１１２は、抽出されたレコード１２１ａ，１２１ｂに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語「間を」が存在するかを判定する。この判定処理で、仮に、「間を」が共起単語として登録されたレコードが存在した場合には、そのレコードに登録された読みが検証対象単語の読みとして正しい可能性が極めて高い。この場合、信頼度出力部１１５は、「間を」が共起単語として登録されたレコード内の読みとともに、その信頼度として最大値（例えば１００％）を出力する。

一方、図６の例では、第１の共起単語ＤＢ１２０には、「間を」が共起単語として登録されたレコードが存在しないものとする。この場合、第２の検索部１１３の処理が開始される。第２の検索部１１３は、第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコード１２１ａ，１２１ｂに含まれる共起単語「実験を」、「演説を」、「道を」を取得する。第２の検索部１１３は、取得した「実験を」、「演説を」、「道を」をそれぞれ対象単語として含むレコード１３１ａ，１３１ｂ，１３１ｃを、第２の共起単語ＤＢ１３０からそれぞれ第１の抽出レコードとして抽出する。これとともに、第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語「間を」を対象単語として含むレコード１３２を、第２の共起単語ＤＢ１３０から第２の抽出レコードとして抽出する。

重複率計算部１１４は、第１の抽出レコード（レコード１３１ａ〜１３１ｃ）のそれぞれと第２の抽出レコード（レコード１３２）との間で重複する共起単語の数を判定し、重複率を計算する。ここで、第２の共起単語ＤＢ１３０では、第１の抽出レコードのそれぞれにおいて次のような個数の共起単語が登録されていたものとする。

レコード１３１ａでは、対象単語「実験を」に対して、「繰り返す」、「する」、「した」などの１１３個の共起単語が対応付けられている。レコード１３１ｂでは、対象単語「演説を」に対して、「する」、「ぶつ」、「楽しむ」などの５３個の共起単語が対応付けられている。レコード１３１ｃでは、対象単語「道を」に対して、「歩む」、「模索する」、「戻る」などの３１３個の共起単語が対応付けられている。

また、第２の抽出レコード（レコード１３２）では、対象単語「間を」に対して、「埋める」、「仲介する」、「歩く」などの７１個の共起単語が対応付けられているものとする。

ここで、レコード１３１ａ，１３１ｂ，１３１ｃのそれぞれとレコード１３２との間における共起単語の重複数は、それぞれ０個、０個、１３個であったものとする。重複率計算部１１４は、重複率の分母を第２の抽出レコード（レコード１３２）に含まれる共起単語数“７１”として、レコード１３１ａ，１３１ｂ，１３１ｃのそれぞれとレコード１３２との間の共起単語の重複率を、次のように計算する。

共起単語「実験を」を含むレコード１３１ａとの重複率＝０／７１×１００＝０％
共起単語「演説を」を含むレコード１３１ｂとの重複率＝０／７１×１００＝０％
共起単語「道を」を含むレコード１３１ｃとの重複率＝１３／７１×１００＝１８％
信頼度出力部１１５は、算出された重複率のうち、レコード１３１ｃとレコード１３２との間における共起単語の重複率（１８％）が最大であることを判定する。重複率が最大であるレコード１３１ｃに含まれる対象単語「道を」は、他の第１の抽出レコード（レコード１３１ａ，１３１ｂ）に含まれる対象単語「実験を」、「演説を」と比較して、第２の抽出レコード（レコード１３２）に含まれる対象単語「間を」、すなわち入力文字列ＩＮに含まれる共起単語との類似性または関連性が、最も高いと推定できる。換言すると、「道を」は、「実験を」、「演説を」と比較して、入力文字列ＩＮにおける共起単語「間を」と置換できる可能性が高いと推定できる。また、「道を」を入力文字列ＩＮにおける共起単語「間を」と置換できる可能性は、重複率が高いほど高くなる。

そこで、信頼度出力部１１５は、レコード１３１ｃ内の対象単語「道を」を共起単語として含む第１の共起単語ＤＢ１２０のレコード１２１ｂから、読み「オイッタ」を抽出する。信頼度出力部１１５は、抽出した読み「オイッタ」の信頼性の値として、レコード１３１ｃに基づく重複率“１８％”を出力する。

なお、後述するように、信頼度出力部１１５は、算出された重複率に基づいて、信頼度を最大値（１００％）以下の範囲となるように計算により求めてもよいが、このような場合の計算方法の例については後述する。

次に、図７は、入力文字列として「会見を行った」が入力された場合の処理例を示す。この入力文字列ＩＮにおいては、検証対象単語は図６と同様に「を行った」である一方、共起単語は「会見を」である。

第１の検索部１１１は、第１の共起単語ＤＢ１２０から、検証対象単語「を行った」と同一表記の対象単語を含むレコード１２１ａ，１２１ｂを抽出する。判定部１１２は、抽出されたレコード１２１ａ，１２１ｂに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語「会見を」が存在するかを判定する。図７の例では、第１の共起単語ＤＢ１２０には「会見を」が共起単語として登録されたレコードが存在しないことから、第２の検索部１１３の処理が開始される。

第２の検索部１１３は、第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコード１２１ａ，１２１ｂに含まれる共起単語「実験を」、「演説を」、「道を」を取得する。第２の検索部１１３は、取得した「実験を」、「演説を」、「道を」をそれぞれ対象単語として含むレコード１３１ａ，１３１ｂ，１３１ｃを、第２の共起単語ＤＢ１３０からそれぞれ第１の抽出レコードとして抽出する。これとともに、第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語「会見を」を対象単語として含むレコード１３３を、第２の共起単語ＤＢ１３０から第２の抽出レコードとして抽出する。

重複率計算部１１４は、第１の抽出レコード（レコード１３１ａ〜１３１ｃ）のそれぞれと第２の抽出レコード（レコード１３３）との間で重複する共起単語の数を判定し、重複率を計算する。図６の例と同様に、レコード１３１ａでは、対象単語「実験を」に対して１１３個の共起単語が対応付けられている。レコード１３１ｂでは、対象単語「演説を」に対して５３個の共起単語が対応付けられている。レコード１３１ｃでは、対象単語「道を」に対して、３１３個の共起単語が対応付けられている。

また、第２の抽出レコード（レコード１３３）では、対象単語「会見を」に対して、「こなす」、「する」、「開く」などの４０個の共起単語が対応付けられているものとする。

ここで、レコード１３１ａ，１３１ｂ，１３１ｃのそれぞれとレコード１３３との間における共起単語の重複数は、それぞれ１４個、１７個、０個であったものとする。重複率計算部１１４は、重複率の分母を第２の抽出レコード（レコード１３３）に含まれる共起単語数“４０”として、レコード１３１ａ，１３１ｂ，１３１ｃのそれぞれとレコード１３３との間の共起単語の重複率を、次のように計算する。

共起単語「実験を」を含むレコード１３１ａとの重複率＝１４／４０×１００＝３５％
共起単語「演説を」を含むレコード１３１ｂとの重複率＝１７／４０×１００＝４３％
共起単語「道を」を含むレコード１３１ｃとの重複率＝０／４０×１００＝０％
信頼度出力部１１５は、算出された重複率のうち、レコード１３１ｂとレコード１３３との間における共起単語の重複率（４３％）が最大であることを判定する。信頼度出力部１１５は、レコード１３１ｂ内の対象単語「演説を」を共起単語として含む第１の共起単語ＤＢ１２０のレコード１２１ａから、読み「オオコナッタ」を抽出する。信頼度出力部１１５は、抽出した読み「オオコナッタ」の信頼性の値として、レコード１３１ｂに基づく重複率“４３％”を出力する。

次に、図８は、入力文字列として「道路が空く」が入力された場合の処理例を示す。この入力文字列ＩＮにおいては、検証対象単語は「が空く」であり、共起単語は「道路が」である。

第１の検索部１１１は、第１の共起単語ＤＢ１２０から、検証対象単語「が空く」と同一表記の対象単語を含むレコード１２２ａ，１２２ｂを抽出する。判定部１１２は、抽出されたレコード１２２ａ，１２２ｂに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語「道路が」が存在するかを判定する。図８の例では、第１の共起単語ＤＢ１２０には「道路が」が共起単語として登録されたレコードが存在しないことから、第２の検索部１１３の処理が開始される。

第２の検索部１１３は、第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコード１２２ａ，１２２ｂに含まれる共起単語「穴が」、「部屋が」、「電車が」、「腹が」を取得する。第２の検索部１１３は、取得した「穴が」、「部屋が」、「電車が」、「腹が」をそれぞれ対象単語として含むレコード１３４ａ，１３４ｂ，１３４ｃ，１３４ｄを、第２の共起単語ＤＢ１３０からそれぞれ第１の抽出レコードとして抽出する。これとともに、第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語「道路が」を対象単語として含むレコード１３５を、第２の共起単語ＤＢ１３０から第２の抽出レコードとして抽出する。

重複率計算部１１４は、第１の抽出レコード（レコード１３４ａ〜１３４ｄ）のそれぞれと第２の抽出レコード（レコード１３５）との間で重複する共起単語の数を判定し、重複率を計算する。ここで、第２の共起単語ＤＢ１３０では、第１の抽出レコードのそれぞれにおいて次のような個数の共起単語が登録されていたものとする。

レコード１３４ａでは、対象単語「穴が」に対して、「ある」、「開く」、「閉まる」などの４５個の共起単語が対応付けられている。レコード１３４ｂでは、対象単語「部屋が」に対して、「ある」、「狭い」、「使える」などの３０個の共起単語が対応付けられている。レコード１３４ｃでは、対象単語「電車が」に対して、「ストップする」、「ない」、「近づく」などの２６個の共起単語が対応付けられている。レコード１３４ｄでは、対象単語「腹が」に対して、「すわる」、「立つ」、「へる」などの２７個の共起単語が対応付けられている。

また、第２の抽出レコード（レコード１３５）では、対象単語「道路が」に対して、「できる」、「ない」、「横切る」などの３５個の共起単語が対応付けられているものとする。

ここで、レコード１３４ａ，１３４ｂ，１３４ｃ，１３４ｄのそれぞれとレコード１３５との間における共起単語の重複数は、それぞれ０個、２個、５個、０個であったものとする。重複率計算部１１４は、重複率の分母を第２の抽出レコード（レコード１３５）に含まれる共起単語数“３５”として、レコード１３４ａ，１３４ｂ，１３４ｃ，１３４ｄのそれぞれとレコード１３５との間の共起単語の重複率を、次のように計算する。

共起単語「穴が」を含むレコード１３４ａとの重複率＝０／３５×１００＝０％
共起単語「部屋が」を含むレコード１３４ｂとの重複率＝２／３５×１００＝６％
共起単語「電車が」を含むレコード１３４ｃとの重複率＝５／３５×１００＝１５％
共起単語「腹が」を含むレコード１３４ｄとの重複率＝０／３５×１００＝０％
信頼度出力部１１５は、算出された重複率のうち、レコード１３４ｃとレコード１３５との間における共起単語の重複率（１５％）が最大であることを判定する。信頼度出力部１１５は、レコード１３４ｃ内の対象単語「電車が」を共起単語として含む第１の共起単語ＤＢ１２０のレコード１２２ｂから、読み「ガスク」を抽出する。信頼度出力部１１５は、抽出した読み「ガスク」の信頼性の値として、レコード１３４ｃに基づく重複率“１５％”を出力する。

ところで、上記の図６〜図８の例では、重複率の最大値は４３％という一見低い値となった。２０万文程度の文章を用いて検証した結果、読みが正しい場合であっても重複率は１０％〜４０％程度にしかならないことがわかった。この場合、重複率が４０％程度ならば、実際の信頼度は１００％に近いと見なすことができる。また、重複率が例えば２０％程度ならば、実際の信頼度は最大値１００％と最小値０％との中間値付近と見なすことができる。

そこで、信頼度出力部１１５は、算出された重複率を決められた手順に従い、最大値１００％までの範囲で増加させることで、信頼度を求めてもよい。ここでは例として、計算方法１，２の２つの例を挙げる。

＜計算方法１＞
信頼度出力部１１５は、算出された重複率に対して１より大きい所定の係数（例えば“２”）を乗算し、その乗算結果を信頼度として出力する。ただし、乗算結果が１００％を超えた場合には、信頼度の出力値を１００％とする。なお、例えば、このような重複率に係数を乗算する計算を、重複率が所定のしきい値（例えば１０％）以上の場合のみ行うようにしてもよい。また、この場合、重複率がしきい値未満の場合には、出力する信頼度の値を０％としてもよい。

＜計算方法２＞
上記のように重複率が１０％〜４０％となっても読みが正しい場合が多いことに鑑み、信頼度出力部１１５は、重複率が１０％〜４０％であるとき、重複率を８０％〜１００％の値に変換して信頼度とし、重複率が４０％を超えるとき、信頼度を一律に１００％とする。また、重複率が０％以上１０％未満であるとき、重複率を０％以上８０％未満の値に変換して信頼度とする。このような場合の信頼度の計算手順の例を以下に示す。

重複率が０％以上１０％未満：信頼度＝重複率×８
重複率が１０％以上４０％未満：信頼度＝８０＋（重複率−１０）×２／３
重複率が４０％以上：信頼度＝１００
また、信頼度出力部１１５は、次の「変換方法１」の例のように、信頼度を段階的な値として用意しておき、重複率を所定のしきい値と比較することで、重複率を信頼度の段階の値に変換してもよい。ここでは例として、信頼度を、高い順に「高」、「中」、「低」の３段階のいずれかとして出力する。

＜変換方法１＞
重複度が０％以上５％未満：信頼度「低」
重複度が５％以上１０％未満：信頼度「中」
重複度が１０％以上：信頼度「高」
次に、言語処理装置１００の処理についてフローチャートを用いて説明する。図９は、言語処理装置の処理手順の例を示すフローチャートである。

［ステップＳ１１］第１の検索部１１１は、入力文字列ＩＮに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第１の共起単語ＤＢ１２０から抽出する。
［ステップＳ１２］判定部１１２は、第１の検索部１１１によって第１の共起単語ＤＢ１２０から抽出されたレコードに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語があった場合、判定部１１２は、その旨を信頼度出力部１１５に通知する。この場合、ステップＳ１３の処理が実行される。一方、一致する共起単語がなかった場合、判定部１１２は、その旨を第２の検索部１１３に通知する。この場合、ステップＳ１４の処理が実行される。

［ステップＳ１３］信頼度出力部１１５は、入力文字列ＩＮに含まれる共起単語と一致する共起単語を含む第１の共起単語ＤＢ１２０のレコードに登録された読みを出力するとともに、その読みの信頼度として最大値を出力する。上記の計算方法１，２のいずれかを用いた場合、信頼度“１００％”が出力される。また、上記の変換方法１を用いた場合、信頼度「高」が出力される。

［ステップＳ１４］第２の検索部１１３は、ステップＳ１１で第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコードに含まれる共起単語を取得する。第２の検索部１１３は、取得した共起単語のそれぞれを対象単語として含むレコードを、第２の共起単語ＤＢ１３０から第１の抽出レコードとして抽出する。

［ステップＳ１５］第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語を対象単語として含むレコードを、第２の共起単語ＤＢ１３０から第２の抽出レコードとして抽出する。

なお、ステップＳ１４，Ｓ１５の処理順は、逆であってもよい。
［ステップＳ１６］重複率計算部１１４は、ステップＳ１４で抽出された第１の抽出レコードのそれぞれに含まれる共起単語と、ステップＳ１５で抽出された第２の抽出レコードに含まれる共起単語との重複率を、第１の抽出レコードごとに計算する。

［ステップＳ１７］信頼度出力部１１５は、ステップＳ１６で算出された重複度を基に信頼度を出力する。
ここで、ステップＳ１７での信頼度出力処理について、例として３つの処理例を示す。

図１０は、信頼度出力処理の第１の処理例を示すフローチャートである。
［ステップＳ２１］信頼度出力部１１５は、図９のステップＳ１６の算出結果から、重複率が最大になった第１の抽出レコードを判別する。

［ステップＳ２２］信頼度出力部１１５は、ステップＳ２１で判別した第１の抽出レコード（第２の共起単語ＤＢ１３０のレコード）に含まれる対象単語を共起単語として含む、第１の共起単語ＤＢ１２０のレコード（すなわち、図９のステップＳ１１で抽出されたレコードのいずれか）を判別する。信頼度出力部１１５は、判別したレコードに登録された読みを、検証対象単語の読みとして出力する。これとともに、信頼度出力部１１５は、ステップＳ２１で最大であると判別した重複率に基づいて、検証対象単語の読みの信頼度を出力する。信頼度としては、例えば、重複率と同じ値が出力されてもよい。あるいは、前述の計算方法１、計算方法２、変換方法１のいずれかの手順で信頼度が出力されてもよい。

なお、例えば、入力文字列ＩＮにおいて、検証対象単語にあらかじめ読みが付与されている場合には、図９の処理手順を次のように変形することもできる。ステップＳ１１において、第１の検索部１１１は、検証対象単語と表記が一致し、かつ検証対象単語に付与された読みが登録されたレコードのみを、第１の共起単語ＤＢ１２０から抽出する。そして、ステップＳ１４では、第２の検索部１１３は、ステップＳ１１で抽出された１つのレコードに含まれる共起単語を取得し、取得した共起単語のそれぞれを対象単語として含むレコードを第２の共起単語ＤＢ１３０から抽出する。このような処理により、信頼度出力部１１５からは、検証対象単語にあらかじめ付与された読みの正しさの度合いが、信頼度として出力されるようになる。

図１１は、信頼度出力処理の第２の処理例を示すフローチャートである。
［ステップＳ３１］信頼度出力部１１５は、図９のステップＳ１６で算出された重複率の最大値を、第１の抽出レコードに含まれる対象単語を共起単語として含む、第１の共起単語ＤＢ１２０のエントリごとに（すなわち、検証対象単語の読みごとに）判定する。ここで、検証対象単語の読みごとに判別された重複率の最大値を、「読み別最大重複率」と呼ぶ。

例えば、図８において、第１の抽出レコードのうちレコード１３４ａ，１３４ｂに含まれる対象単語は、第１の共起単語ＤＢ１２０のレコード１２２ａに共起単語として登録されたものである。また、ステップＳ１６では、レコード１３４ａと第２の抽出レコード（レコード１３５）との間の共起単語の重複率が０％と算出され、レコード１３４ｂと第２の抽出レコード（レコード１３２）との間の共起単語の重複率が６％と判定される。そこで、信頼度出力部１１５は、レコード１２２ａに登録された読み「ガアク」に対応する読み別最大重複率を６％と判定する。

一方、図８において、第１の抽出レコードのうちレコード１３４ｃ，１３４ｄに含まれる対象単語は、第１の共起単語ＤＢ１２０のレコード１２２ｂに共起単語として登録されたものである。また、ステップＳ１６では、レコード１３４ｃと第２の抽出レコード（レコード１３５）との間の共起単語の重複率が１５％と算出され、レコード１３４ｄと第２の抽出レコード（レコード１３５）との間の共起単語の重複率が０％と判定される。そこで、信頼度出力部１１５は、レコード１２２ｂに登録された読み「ガスク」に対応する読み別最大重複率を１５％と判定する。

［ステップＳ３２］信頼度出力部１１５は、算出された読み別最大重複率に基づき、信頼度を読みごとに出力する。
例えば、図８の例では、検証対象単語の読み「ガアク」に対応する読み別最大重複率が６％であるので、信頼度出力部１１５は、読み別最大重複率“６％”に基づいて、読み「ガアク」の信頼度を出力する。また、検証対象単語の読み「ガスク」に対応する読み別最大重複率が１５％であるので、信頼度出力部１１５は、読み別最大重複率“１５％”に基づいて、読み「ガスク」の信頼度を出力する。信頼度としては、例えば、重複率と同じ値が出力されてもよい。あるいは、前述の計算方法１、計算方法２、変換方法１のいずれかの手順で信頼度が出力されてもよい。

以上の図１１の処理では、信頼度出力部１１５は、検証対象単語の読みをすべて出力するとともに、それぞれの読みが、検証対象単語が入力文字列ＩＮの共起単語と共起した場合の読みとして正しいかの度合いを示す信頼度を出力する。

図１２は、信頼度出力処理の第３の処理例を示すフローチャートである。
この第３の処理例は、図１１の処理によって出力された信頼度を、読み別最大重複率同士の比較結果に基づいて補正するものである。なお、図１２では、図１１と同様の処理ステップには同じ符号を付して示す。また、図１２では例として、検証対象単語について２種類の読み方が可能であるものとする。従って、ステップＳ３２では、２つの読みとそれらに対応する信頼度とが出力される。

［ステップＳ３３］信頼度出力部１１５は、ステップＳ３２で出力された信頼度が両方とも“低い値”であるかを判定する。両方とも“低い値”である場合、ステップＳ３４の処理が実行される。一方、信頼度の少なくとも一方が“低い値”でない場合、ステップＳ３５の処理が実行される。

信頼度出力部１１５は、例えば、信頼度を所定のしきい値と比較することで、信頼度が“低い値”であるかを判定する。信頼度が上記の計算方法１，２のいずれかで出力される場合、しきい値を８０％とすることが望ましい。この場合、信頼度出力部１１５は、算出された２つの信頼度がともに８０％未満である場合、ステップＳ３４の処理を実行する。一方、信頼度出力部１１５は、算出された信頼度の少なくとも一方が８０％以上の場合、ステップＳ３５の処理を実行する。

また、例えば、信頼度が上記の変換方法１で出力される場合、信頼度出力部１１５は、変換された２つの信頼度がともに「中」以下である場合、ステップＳ３４の処理を実行する。一方、信頼度出力部１１５は、変換された信頼度の少なくとも一方が「高」である場合、ステップＳ３５の処理を実行する。

［ステップＳ３４］出力された信頼度がともに“低い値”である場合には、信頼度の精度が低い可能性が高いため、どちらの読みが正しいかを正確に判定できない。このため、信頼度出力部１１５は、ステップＳ３２で出力された２つの信頼度をともに低下させるような補正を行う。例えば、上記の計算方法１，２のように信頼度が割合の値として出力された場合、信頼度出力部１１５は、出力された信頼度を一定量、または一定割合分だけ低下させる。また、上記の変換方法１のように信頼度が段階的な値として出力された場合、信頼度出力部１１５は、出力された信頼度を所定段階数分だけ低下させる。

［ステップＳ３５］信頼度出力部１１５は、ステップＳ３２で出力された信頼度が両方とも“高い値”であるかを判定する。両方とも“高い値”である場合、ステップＳ３６の処理が実行される。一方、信頼度の少なくとも一方が“高い値”でない場合、信頼度が補正されずに処理が終了される。

信頼度出力部１１５は、例えば、ステップＳ３３と同様に、信頼度を所定のしきい値と比較することで、信頼度が“高い値”であるかを判定する。信頼度が上記の計算方法１，２のいずれかで出力される場合、しきい値を８０％とすることが望ましい。この場合、信頼度出力部１１５は、算出された２つの信頼度がともに８０％以上である場合、ステップＳ３６の処理を実行する。一方、信頼度出力部１１５は、算出された信頼度の一方が８０％以上で他方が８０％未満である場合、信頼度を補正せずに処理を終了する。

また、例えば、信頼度が上記の変換方法１で出力される場合、信頼度出力部１１５は、変換された２つの信頼度がともに「高」である場合、ステップＳ３６の処理を実行する。一方、信頼度出力部１１５は、変換された信頼度の一方が「高」で他方が「中」以下である場合、信頼度を補正せずに処理を終了する。

このステップＳ３５で「Ｎｏ」と判定される場合には、信頼度の差分が大きく、しかも一方の信頼度が高い値を示していることから、信頼度の高い方の読みが正しい可能性が高い。このため、信頼度を補正せずに出力しても、信頼度の精度を保つことができる。なお、ステップＳ３５で「Ｎｏ」と判定された場合、信頼度出力部１１５は、低い方の信頼度を低下させて、低下させた信頼度に対応する読みが正しくないことが明確に示されるようにしてもよい。

［ステップＳ３６］信頼度出力部１１５は、ステップＳ３２で出力された信頼度の差分（絶対値）または比を計算する。なお、比は、値が低い方の信頼度に対する高い方の信頼度の割合を示し、１以上の値となる。信頼度出力部１１５は、算出した差分または比が一定値以上である場合、信頼度の高い方の読みが正しい可能性が高いことから、信頼度を補正せずに処理を終了する。一方、信頼度出力部１１５は、算出した差分または比が一定値未満である場合、ステップＳ３７の処理を実行する。

［ステップＳ３７］算出された信頼度がどちらも高い値であっても、それらの差分または比が小さい場合には、信頼度の精度が必ずしも高いとは言えず、どちらの読みが正しいかを正確に判定できない。このため、信頼度出力部１１５は、ステップＳ３２で出力された信頼度のうち高い方の値を低下させるような補正を行う。例えば、上記の計算方法１，２のように信頼度が割合の値として出力された場合、信頼度出力部１１５は、高い方の信頼度を一定量、または一定割合分だけ低下させる。また、上記の変換方法１のように信頼度が段階的な値として出力された場合、信頼度出力部１１５は、高い方の信頼度を所定段階数分だけ低下させる。ただし、いずれの場合でも、高い方の信頼度の補正後の値が、他方の信頼度より低くならないようにすることが望ましい。

信頼度出力部１１５は、高い方の信頼度だけでなく、低い方の信頼度も低下させてもよい。この場合でも、高い方の信頼度の補正後の値が、他方の信頼度より低くならないようにすることが望ましい。

以上の第３の処理例によれば、異なる読みに対応する信頼度同士を比較結果に基づき、信頼度自体の正確性が疑わしいと考えられる場合には、信頼度を低下させる方向に補正する。これにより、信頼度同士での比較を行わない第２の処理例と比較して、信頼度の精度を向上させることができる。

以上説明した第２の実施の形態に係る言語処理装置１００によれば、検証対象単語の読みの信頼度を高精度に判定することができる。特に、入力文字列ＩＮに含まれる検証対象単語とその共起単語との組み合わせが、第１の共起単語ＤＢ１２０に登録されていない場合（すなわち、図９のステップＳ１２で不一致と判定される場合）であっても、第２の共起単語ＤＢ１３０を用いて、検証対象単語の読みの信頼度を検証することが可能である。従って、第２の共起単語ＤＢ１３０と比較して、第１の共起単語ＤＢ１２０に登録される共起単語の数が少ない場合であっても、検証対象単語の読みの信頼度を検証できるようになる。

第１の共起単語ＤＢ１２０は、対象単語に対応する共起単語だけでなく、対象単語の読みの情報も含んでいる。このため、第１の共起単語ＤＢ１２０に対して多くの共起単語を登録する作業は、第２の共起単語ＤＢ１３０に共起単語を登録する作業と比較して手間がかかる。上記の言語処理装置１００によれば、第１の共起単語ＤＢ１２０に登録される共起単語の数が少ない場合でも、検証対象単語の読みの信頼度を検証できるので、第１の共起単語ＤＢ１２０の作成に要するコストを低減できる。従って、言語処理装置１００の製造・開発コストを抑制しつつ、検証対象単語の読みの信頼度を高精度に判定することが可能になる。

なお、上記の第２の実施の形態では、第１の抽出レコードと第２の抽出レコードとの間での共起単語の重複率を基に信頼度を算出した。しかしながら、他の例として、第１の抽出レコードと第２の抽出レコードとの間での共起単語の重複数を基に信頼度を算出してもよい。例えば図９のステップＳ１６では、重複率計算部１１４は第１の抽出レコードごとに重複率ではなく重複数を出力する。そして、図９のステップＳ１７において、信頼度出力部１１５は重複率の代わりに重複数を用いて同様の処理を行う。

このように重複度の代わりに重複数を用いた処理は、例えば、信頼度出力部１１５が、検証対象単語の読みとして正しいと判定した読みの情報のみを出力する場合に好適である。この場合、信頼度出力部１１５は、検証対象単語についての複数の読みのうち、入力文字列ＩＮ内の共起単語と組み合わせた場合に正しいと判定した読みを、重複数が最大となる第１の抽出レコードを基に判定して出力することができる。

さらに、重複数の代わりに、重複数を第２の抽出レコードに含まれる共起単語数で正規化（すなわち除算）した数を基に、信頼度が算出されてもよい。ただし、重複数を第２の抽出レコードに含まれる共起単語数で正規化した場合には、第２の抽出レコードに登録されている共起単語数が多いほど、信頼度の値が低くなってしまう。このため、第２の共起単語ＤＢ１３０のレコードごとの共起単語数の違いが誤差となって、信頼度の精度を低下させる可能性がある。

また、これとは別に、上記の第２の実施の形態では、重複率計算部１１４での共起単語の重複率の計算が第１の抽出レコードごとに行われた。しかしながら、他の例として、重複率計算部１１４は、第１の抽出レコードと第２の抽出レコードとの間での共起単語の重複数を、検証対象単語の同じ読みに対応する第１の抽出レコード同士で合計し、その合計値を基に重複率を計算してもよい。

例えば、図７の例において、重複率計算部１１４は、レコード１３１ａとレコード１３３との間での共起単語の重複数“１７”と、レコード１３１ｂとレコード１３３との間での共起単語の重複数“１４”との合計値“３１”を算出する。この場合、信頼度出力部１１５は、合計値“３１”をレコード１３３の共起単語数“４０”で除算した値を、読み「オオコナッタ」に対応する信頼度として出力する。また、信頼度出力部１１５は、重複率の代わりに重複数の合計値“３１”を基に信頼度を出力してもよい。

ただし、このように重複数の合計値を用いて信頼度を出力した場合には、１つの読みに対応する第１の共起単語ＤＢ１２０のレコードに登録された共起単語数が多いほど、信頼度の値が高くなる可能性がある。このため、第１の共起単語ＤＢ１２０のレコードごとの共起単語数の違いが誤差となって、信頼度の精度を低下させる可能性がある。これに対して、重複数の合計値を第１の共起単語ＤＢ１２０のレコードに含まれる共起単語数で除算して正規化した値を用いたり、または、あくまで１つの第１の抽出レコードと、第２の抽出レコードとの間での共起単語の重複数を基に信頼度を計算したりすることで、このような誤差の発生を防止し、信頼度の精度を向上させることができる。

〔第３の実施の形態〕
図１３は、第３の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図１３では、図３に対応する構成要素については同じ符号を付して示している。

図１３の言語処理装置１００ａは、図３の言語処理装置１００の機能に加えて、かな漢字文章から複数の読み方が可能な単語（以下、「複数読み単語」と呼ぶ）とその共起単語とを抽出する機能と、抽出された複数読み単語についての読み誤りの可能性を表示によってユーザにわかりやすく提示する機能とを備えるものである。

この言語処理装置１００ａは、第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４および信頼度出力部１１５に加えて、形態素解析部１４１、複数読み単語抽出部１４２、構文解析部１４３および信頼度表示処理部１４４を備える。なお、言語処理装置１００ａは、例えば、図２に示したようなコンピュータとして実現される。そして、形態素解析部１４１、複数読み単語抽出部１４２、構文解析部１４３および信頼度表示処理部１４４の各処理は、言語処理装置１００ａが備えるＣＰＵによって所定のプログラムが実行されることで実現される。

また、言語処理装置１００ａの不揮発性記憶装置には、言語辞書１４５と表示ＤＢ（データベース）１４４ａとが記憶されている。なお、言語辞書１４５および表示ＤＢ１４４ａの少なくとも一方は、言語処理装置１００ａの外部に設けられた不揮発性記憶装置に記憶されていてもよい。

言語辞書１４５には、例えば、複数の単語の表記のそれぞれに対して、読み、意味、品詞分類、アクセント情報などが対応付けて記憶されている。形態素解析部１４１は、かな漢字文章の入力を受け、言語辞書１４５を参照しながら形態素解析を行うことにより、かな漢字文章を読み情報の付与された形態素列に分解する。

複数読み単語抽出部１４２は、言語辞書１４５を参照しながら、形態素解析部１４１によって分解された形態素列の中から、複数の読み方が考えられる形態素列を検出する。複数の読み方が可能であることは、言語辞書１４５において、形態素列に含まれる単語の表記に対して複数の読みが対応付けられていることから判定できる。複数読み単語抽出部１４２は、複数読み単語を含む形態素列を構文解析部１４３に出力する。これとともに、複数読み単語抽出部１４２は、入力されたかな漢字文章に対して複数読み単語の位置を識別する情報を付与して、信頼度表示処理部１４４に出力する。

構文解析部１４３は、複数読み単語抽出部１４２から供給された形態素列を文節にまとめ、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部１４３は、複数読み単語を含む文節の係り受け先を特定する。構文解析部１４３は、入力文字列ＩＮの検証対象単語として複数読み単語を、入力文字列ＩＮの共起単語として複数読み単語の係り受け先の文節を、それぞれ第１の検索部１１１に供給する。このとき、構文解析部１４３は、複数読み単語の読みのうちの任意の１つ、または推定した１つを、検証対象単語の読みとして入力文字列ＩＮに付与してもよい。

このようにして第１の検索部１１１に入力文字列ＩＮが入力されることで、前述の第２の実施の形態と同様の処理により、信頼度出力部１１５からは、検証対象単語の読みのそれぞれについての信頼度が出力される。また、検証対象単語に読みの情報が付与されていた場合には、付与されていた読みに対応する信頼度のみが信頼度出力部１１５から出力されてもよい。

信頼度表示処理部１４４は、複数読み単語抽出部１４２から供給されたかな漢字文章をディスプレイに表示するための表示情報を生成する。この表示情報においては、複数読み単語の箇所を、信頼度出力部１１５から出力された信頼度ごとに異なる状態で表示させる。信頼度に応じた表示状態については、表示ＤＢ１４４ａに設定されている。例えば、信頼度に応じて異なる色で表示する場合には、表示ＤＢ１４４ａには、信頼度と色との関係を示す情報が設定されている。

図１４は、かな漢字文章の第１の表示例を示す図である。
図１４の表示画面Ｐ１には、言語処理装置１００ａに入力されるかな漢字文章２００が表示されている。信頼度表示処理部１４４は、表示させたかな漢字文章２００のうち、複数読み単語が表示された表示部２０１〜２０６について、信頼度ごとに異なる表示状態で表示を行う。図１４の例では、信頼度表示処理部１４４は、０％以上２０％未満、２０％以上４０％未満、４０％以上６０％未満、６０％以上８０％未満、８０％以上１００％以下の５段階の信頼度について、それぞれ異なる背景で示している。この場合例えば、信頼度の各段階に対応するしきい値範囲および背景の表示状態を指示する情報（色など）が、表示ＤＢ１４４ａに設定される。なお、信頼度ごとの表示状態の変え方としては、他に例えば、文字の色を変える、文字の太さやフォントを変えるなどの方法もある。

信頼度表示処理部１４４が表示画面Ｐ１に表示している信頼度は、信頼度出力部１１５から出力される読みごとの信頼度のうちの最大値である。また、表示部２０１について拡大して示したように、表示部２０１〜２０６には、元のかな漢字文章２００中の文字とともに、表示した信頼度に対応する読みも示している。これにより、複数読み単語の読みとして最も正しい可能性の高い読みとともに、その読みの正しさを示す信頼度を、ユーザにわかりやすく提示することができる。

なお、例えば、表示部２０１〜２０６には元のかな漢字文章２００中の文字のみをそのまま表示し、表示部２０１〜２０６のそれぞれにマウスポインタを合わせる、あるいはクリック操作することにより、信頼度に対応する読みを表示するようにしてもよい。また、表示部２０１〜２０６には元のかな漢字文章の文字を表示せず、読みの情報のみを表示してもよい。

図１５は、かな漢字文章の第２の表示例を示す図である。なお、図１５では、図１４に対応する要素には同じ符号を付して示す。
図１５の表示画面Ｐ２は、構文解析部１４３が検証対象単語に対して読みを付与した場合の表示例である。この場合、信頼度表示処理部１４４は、複数読み単語の表示部２０１〜２０６について、付与された読みについての信頼度ごとに異なる表示状態で表示を行う。また、信頼度表示処理部１４４は、表示部２０１〜２０６に、元のかな漢字文章２００の文字の代わりに、構文解析部１４３によって付与された読みを表示する。これにより、構文解析部１４３によって自動付与された読みの正しさを示す信頼性を、ユーザにわかりやすく提示することができる。

図１６は、かな漢字文章の第３の表示例を示す図である。
図１６の表示画面Ｐ３は、複数読み単語の表示部２０１〜２０６について、その単語を読み誤る可能性の数値ごとに異なる表示状態で表示したものである。表示部２０１〜２０６には、元のかな漢字文章２００中の文字がそのまま表示される。信頼度表示処理部１４４は、信頼度出力部１１５から出力される信頼度の最大値を１００％から差し引いた値を、読み誤りの可能性として算出し、その算出値ごとに異なる表示状態で表示部２０１〜２０６の表示を行う。これにより、複数読み単語の位置と、その単語を読み誤る可能性とを、ユーザにわかりやすく提示することができる。

図１７は、第３の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
［ステップＳ５１］形態素解析部１４１は、言語辞書１４５を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。

［ステップＳ５２］複数読み単語抽出部１４２は、言語辞書１４５を参照しながら、形態素解析部１４１によって分解された形態素列の中から、複数読み単語を含む形態素列を検出する。複数読み単語抽出部１４２は、複数読み単語を含む形態素列を構文解析部１４３に出力する。これとともに、複数読み単語抽出部１４２は、入力されたかな漢字文章に対して複数読み単語の位置を識別する情報を付与して、信頼度表示処理部１４４に出力する。

［ステップＳ５３］構文解析部１４３は、言語辞書１４５を参照しながら、複数読み単語抽出部１４２から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部１４３は、複数読み単語を含む文節の係り受け先を特定する。構文解析部１４３は、入力文字列ＩＮの検証対象単語として複数読み単語を、入力文字列ＩＮの共起単語として複数読み単語の係り受け先の文節を、それぞれ第１の検索部１１１に供給する。このとき、構文解析部１４３は、複数読み単語の読みのうちの任意の１つ、または推定した１つを、検証対象単語の読みとして入力文字列ＩＮに付与してもよい。

［ステップＳ５４］ステップＳ５５の処理が、構文解析部１４３から入力される入力文字列ＩＮの数だけ、すなわち、かな漢字文章から検出された複数読み単語の数だけ、繰り返し実行される。

［ステップＳ５５］構文解析部１４３から入力された入力文字列ＩＮを用いて、第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４および信頼度出力部１１５による図９と同様の処理が実行される。信頼度出力部１１５からは、入力文字列ＩＮ内の検証対象単語１つについて、複数の読みと、それぞれの読みに対応する信頼度とが出力される。

なお、構文解析部１４３から入力された入力文字列ＩＮに検証対象単語の読みが付与されている場合には、信頼度出力部１１５からは、付与された読みとその信頼度という１組の情報が出力されてもよい。この場合、第１の検索部１１１が、付与された読みに対応するレコードのみを第１の共起単語ＤＢ１２０から抽出し、それ以後、抽出されたレコード内の共起単語のみを用いて信頼度の出力処理が実行される。ただし、検証対象単語の読みが付与されている場合でも、例えば、第１の検索部１１１が、付与された読み以外の読みに対応するレコードも第１の共起単語ＤＢ１２０から抽出するようにして、図１２に示したような信頼度出力処理が実行され、最終的に信頼度出力部１１５から、検証対象単語に付与された読みのみに対応する信頼度が出力されるようにしてもよい。これにより、出力される信頼度の精度を高めることができる。

［ステップＳ５６］かな漢字文章から検出されたすべての複数読み単語についてステップＳ５５の処理が終了している場合、ステップＳ５７の処理が実行される。
［ステップＳ５７］信頼度表示処理部１４４は、複数読み単語抽出部１４２から供給されたかな漢字文章をディスプレイに表示するための表示情報を生成する。これとともに、信頼度表示処理部１４４は、表示ＤＢ１４４ａを参照しながら、かな漢字文章内の複数読み単語の部分について、信頼度出力部１１５からの信頼度ごとに異なる表示状態で表示を行う。この表示処理については、図１４〜図１６において説明した通りである。

以上の第３の実施の形態によれば、入力されたかな漢字文章を表示した表示画面上に、複数読み単語の位置と、その読みに関する信頼性または単語の読み誤り可能性をわかりやすく表示させることができる。このため、かな漢字文章をチェックするユーザは、読みが正しいかの確認の必要な箇所を簡単かつ正確に認識することができる。従って、音声合成用の文書データを作成する際などの作業負荷を大幅に軽減することができる。

〔第４の実施の形態〕
図１８は、第４の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図１８では、図３および図１３に対応する構成要素については同じ符号を付して示している。

図１８の言語処理装置１００ｂは、図３の言語処理装置１００の処理を、音声合成用の表音文字列をかな漢字文章から自動生成する処理に適用したものである。すなわち、図１８の言語処理装置１００ｂは、入力されたかな漢字文章を、読みの情報、アクセント情報、ポーズ情報などを含む表音文字列に変換して出力するとともに、かな漢字文章に含まれる複数読み単語の読みを正確に判定し、表音文字列の正確性を向上させるものである。

この言語処理装置１００ｂは、図１３と同様の第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４、信頼度出力部１１５、形態素解析部１４１、複数読み単語抽出部１４２および構文解析部１４３に加えて、読み決定部１５１および韻律情報付与部１５２を備える。なお、言語処理装置１００ｂは、例えば、図２に示したようなコンピュータとして実現される。そして、読み決定部１５１および韻律情報付与部１５２の各処理は、言語処理装置１００ｂが備えるＣＰＵによって所定のプログラムが実行されることで実現される。

読み決定部１５１は、複数読み単語抽出部１４２から、かな漢字文章から抽出された複数読み単語の通知を受ける。読み決定部１５１は、通知された複数読み単語のそれぞれについて、信頼度出力部１１５からの読みおよび信頼度に基づいて、正しいと推定される読みを決定し、韻律情報付与部１５２に出力する。

韻律情報付与部１５２は、形態素解析部１４１、複数読み単語抽出部１４２、構文解析部１４３から、それぞれ、形態素情報、かな漢字文章の読みの情報、係り受け情報や文節情報を取得する。韻律情報付与部１５２は、言語辞書１４５を参照しながら、係り受け情報や文節情報に基づいて、取得した読みの情報にアクセント情報、ポーズ情報を付与し、表音文字列として出力する。また、韻律情報付与部１５２は、取得したかな漢字文書の読みの情報のうち、複数読み単語の領域については、読み決定部１５１によって決定された読みを採用して表音文字列を生成する。

図１９は、第４の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
［ステップＳ７１］形態素解析部１４１は、言語辞書１４５を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。

［ステップＳ７２］複数読み単語抽出部１４２は、言語辞書１４５を参照しながら、形態素解析部１４１によって分解された形態素列の中の読みを判定し、入力されたかな漢字文章の読み情報を韻律情報付与部１５２に出力する。このとき、複数読み単語抽出部１４２は、形態素列から複数読み単語を含むものを抽出したときには、韻律情報付与部１５２に出力する読み情報に複数読み単語の位置を示す情報を付加する。なお、複数読み単語についての読みは、韻律情報付与部１５２に出力情報に含めなくてもよいし、あるいは、適当な読みを出力情報に含めるようにしてもよい。

また、複数読み単語抽出部１４２は、抽出した複数読み単語を含む形態素列を構文解析部１４３に出力するとともに、抽出した複数読み単語を読み決定部１５１に対して通知する。なお、読み決定部１５１に通知された複数読み単語は、例えば、言語処理装置１００ｂのＲＡＭなどに抽出順に蓄積される。

［ステップＳ７３］構文解析部１４３は、言語辞書１４５を参照しながら、複数読み単語抽出部１４２から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定し、韻律情報付与部１５２に係り受け情報や文節情報を供給する。さらに、構文解析部１４３は、複数読み単語を含む文節の係り受け先を特定する。構文解析部１４３は、入力文字列ＩＮの検証対象単語として複数読み単語を、入力文字列ＩＮの共起単語として複数読み単語の係り受け先の文節を、それぞれ第１の検索部１１１に供給する。

［ステップＳ７４］ステップＳ７５の処理が、構文解析部１４３から入力される入力文字列ＩＮの数だけ、すなわち、かな漢字文章から検出された複数読み単語の数だけ、繰り返し実行される。

［ステップＳ７５］構文解析部１４３から入力された入力文字列ＩＮを用いて、第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４および信頼度出力部１１５による図９と同様の処理が実行される。信頼度出力部１１５からは、入力文字列ＩＮ内の検証対象単語１つについて、複数の読みと、それぞれの読みに対応する信頼度とが出力される。

［ステップＳ７６］かな漢字文章から検出されたすべての複数読み単語についてステップＳ７５の処理が終了している場合、ステップＳ７７の処理が実行される。
［ステップＳ７７］読み決定部１５１は、複数読み単語抽出部１４２から通知された複数読み単語のそれぞれについて、信頼度出力部１１５からの読みおよび信頼度に基づいて、正しいと推定される読みを決定し、韻律情報付与部１５２に出力する。具体的には、読み決定部１５１は、信頼度出力部１１５から出力された読みごとの信頼度のうち最大のものを判別し、最大の信頼度に対応する読みを正しい読みとして決定する。

［ステップＳ７８］韻律情報付与部１５２は、複数読み単語抽出部１４２から出力された読み情報に対して、アクセント情報、ポーズ情報を付与し、表音文字列として出力する。アクセント情報は、構文解析部１４３から取得した文節情報、係り受け情報や、言語辞書１４５、および品詞や単語の属性に基づく所定のアクセント変化ルールに基づいて決定される。アクセント変化ルールについても、言語辞書１４５に定義されていてもよい。ポーズ情報は、構文解析部１４３によって解析される文節間の係り受け情報や文字数に基づいて決定される。また、韻律情報付与部１５２は、複数読み単語抽出部１４２から出力された読み情報のうち、複数読み単語の位置の読みについては、読み決定部１５１によって決定された読みを代入する。

以上の第４の実施の形態によれば、音声合成に用いる表音文字列を、人手に頼ることなく、かつ正確に生成することができる。従って、音声合成を用いた製品の開発・製造コストを低減することができる。

〔第５の実施の形態〕
図２０は、第５の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図２０では、図３および図１３に対応する構成要素については同じ符号を付して示している。

図２０の言語処理装置１００ｃは、図３の言語処理装置１００の処理を利用して、第１の共起単語ＤＢ１２０のレコードに対して共起単語を自動的に登録できるようにした装置である。言語処理装置１００ｃは、図１３に示した第１の検索部１１１、判定部１１２、第２の検索部１１３、重複率計算部１１４、信頼度出力部１１５、形態素解析部１４１、複数読み単語抽出部１４２および構文解析部１４３に加えて、文章抽出部１６１およびＤＢ（データベース）更新部１６２を備える。なお、言語処理装置１００ｃは、例えば、図２に示したようなコンピュータとして実現される。そして、文章抽出部１６１およびＤＢ更新部１６２の各処理は、言語処理装置１００ｃが備えるＣＰＵによって所定のプログラムが実行されることで実現される。

また、言語処理装置１００ｃの不揮発性記憶装置には、大規模文章コーパス１６３が記憶される。なお、この大規模文章コーパス１６３は、言語処理装置１００ｃの外部に設けられた不揮発性記憶装置に記憶されていてもよい。

なお、図２０では、第１の共起単語ＤＢ１２０は言語処理装置１００ｃの外部に設けられているが、第１の共起単語ＤＢ１２０は言語処理装置１００ｃの内部の不揮発性記憶装置に記憶されていてもよい。

文章抽出部１６１は、大規模文章コーパス１６３から、第１の共起単語ＤＢ１２０に対象単語として登録された複数読み単語を含む文章を抽出して、形態素解析部１４１に出力する。

ＤＢ更新部１６２は、構文解析部１４３から、第１の検索部１１１に供給される入力文字列ＩＮを取得する。ＤＢ更新部１６２は、取得した入力文字列ＩＮに対応する読みおよび信頼度を信頼度出力部１１５から取得し、信頼度が最大かつ所定値以上の読みを、入力文字列ＩＮの検証対象単語についての正しい読みと判定する。ＤＢ更新部１６２は、検証対象単語の表記と、正しいと判定した読みとを含む第１の共起単語ＤＢ１２０のレコードに、入力文字列ＩＮに含まれる共起単語を、レコード内の共起単語として登録する。

図２１は、第５の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
［ステップＳ９１］文章抽出部１６１により、第１の共起単語ＤＢ１２０から対象単語が１つ選択されるごとに、ステップＳ９２以下の処理が実行される。そして、ループ端であるステップＳ１０６までの処理が、第１の共起単語ＤＢ１２０に含まれるすべての対象単語について繰り返し実行される。ただし、文章抽出部１６１は、第１の共起単語ＤＢ１２０において同一表記で複数の読み方が可能な対象単語については、処理対象として１つだけ選択すればよい。

［ステップＳ９２］文章抽出部１６１は、大規模文章コーパス１６３から、選択した対象単語を含む文章を抽出する。
［ステップＳ９３］形態素解析部１４１は、言語辞書１４５を参照しながら形態素解析を行うことにより、ステップＳ９２で抽出された文章を形態素列に分解する。

［ステップＳ９４］複数読み単語抽出部１４２は、言語辞書１４５を参照しながら、形態素解析部１４１によって分解された形態素列から複数読み単語を含むものを抽出する。なお、このとき抽出される複数読み単語は、文章抽出部１６１によって選択された対象単語と同一であることから、ステップＳ９３，Ｓ９４の処理を省略することもできる。

［ステップＳ９５］構文解析部１４３は、言語辞書１４５を参照しながら、複数読み単語抽出部１４２から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部１４３は、複数読み単語を含む文節の係り受け先を特定する。構文解析部１４３は、入力文字列ＩＮの検証対象単語として複数読み単語を、入力文字列ＩＮの共起単語として複数読み単語の係り受け先の文節を、それぞれ第１の検索部１１１に供給する。このとき第１の検索部１１１に供給される入力文字列ＩＮにおける検証対象単語は、すべて同一表記の単語である。また、構文解析部１４３は、同じ入力文字列ＩＮをＤＢ更新部１６２にも供給する。

構文解析部１４３は、ステップＳ９４で抽出された、複数読み単語を含む形態素列の数だけの入力文字列ＩＮを、第１の検索部１１１およびＤＢ更新部１６２に出力する。
［ステップＳ９６］ループ端であるステップＳ１０５までの処理が、構文解析部１４３から入力される入力文字列ＩＮの数だけ繰り返し実行される。

［ステップＳ９７］第１の検索部１１１は、入力文字列ＩＮに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第１の共起単語ＤＢ１２０から抽出する。
［ステップＳ９８］判定部１１２は、第１の検索部１１１によって第１の共起単語ＤＢ１２０から抽出されたレコードに含まれる共起単語の中に、入力文字列ＩＮに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語がなかった場合、判定部１１２は、その旨を第２の検索部１１３に通知する。この場合、ステップＳ９９の処理が実行される。

一方、一致する共起単語があった場合、その共起単語は第１の共起単語ＤＢ１２０にすでに登録されている。この場合、判定部１１２は、ＤＢ更新部１６２に対して登録の必要がない旨を通知する。この後、ステップＳ１０５のループ端に処理が移る。通知を受けたＤＢ更新部１６２は、処理対象を現在の入力文字列ＩＮから、次に構文解析部１４３から入力された入力文字列ＩＮに移す。

［ステップＳ９９］第２の検索部１１３は、ステップＳ９７で第１の検索部１１１が第１の共起単語ＤＢ１２０から抽出したレコードに含まれる共起単語を取得する。第２の検索部１１３は、取得した共起単語のそれぞれを対象単語として含むレコードを、第２の共起単語ＤＢ１３０から第１の抽出レコードとして抽出する。

［ステップＳ１００］第２の検索部１１３は、入力文字列ＩＮに含まれる共起単語を対象単語として含むレコードを、第２の共起単語ＤＢ１３０から第２の抽出レコードとして抽出する。

なお、ステップＳ９９，Ｓ１００の処理順は、逆であってもよい。
［ステップＳ１０１］重複率計算部１１４は、ステップＳ９９で抽出された第１の抽出レコードのそれぞれに含まれる共起単語と、ステップＳ１００で抽出された第２の抽出レコードに含まれる共起単語との重複率を、第１の抽出レコードごとに計算する。

［ステップＳ１０２］信頼度出力部１１５は、ステップＳ１０１で算出された重複度を基に信頼度を出力する。信頼度の出力方法としては、例えば、図１０〜図１２のいずれかの方法を用いることができる。信頼度出力部１１５は、検証対象単語の読みとともに、各検証対象単語に対応する信頼度を、ＤＢ更新部１６２に出力する。

［ステップＳ１０３］ＤＢ更新部１６２は、ステップＳ１０２で信頼度出力部１１５から入力された信頼度の最大値が、所定のしきい値以上であるかを判定する。ＤＢ更新部１６２は、信頼度の最大値がしきい値以上の場合、ステップＳ１０４の処理を実行する。一方、ＤＢ更新部１６２は、信頼度の最大値がしきい値未満である場合には、取得した信頼度自体の信頼性が低く、この信頼度に基づいて第１の共起単語ＤＢ１２０を更新するべきでないと判断する。このとき、ステップＳ１０５のループ端に処理が移る。

［ステップＳ１０４］ＤＢ更新部１６２は、最大の信頼度に対応する読みが、入力文字列ＩＮにおける検証対象単語の正しい読みであると判定する。ＤＢ更新部１６２は、検証対象単語の表記と、正しいと判定した読みとを含む第１の共起単語ＤＢ１２０のレコードに、入力文字列ＩＮに含まれる共起単語を、レコード内の共起単語として登録する。

［ステップＳ１０５］構文解析部１４３から出力されたすべての入力文字列ＩＮについてループ内の処理が終了した場合、ステップＳ１０６の処理が実行される。
［ステップＳ１０６］文章抽出部１６１によって選択された第１の共起単語ＤＢ１２０内のすべての対象単語について、ループ内の処理が終了した場合、処理全体が終了する。

以上の第５の実施の形態の言語処理装置１００ｃによれば、第１の共起単語ＤＢ１２０に対して共起単語を人手を介さず、かつ正確に登録することができるようになる。従って、第２〜第４の実施の形態の各言語処理装置を運用するための事前作業としての、第１の共起単語ＤＢ１２０の構築作業を効率化することができる。その結果、読みの信頼度の判定精度を高めることができる。これとともに、第２〜第４の実施の形態における第２の検索部１１３、重複率計算部１１４および信頼度出力部１１５の処理の実行頻度が低くなることから、第２〜第４の実施の形態の各言語処理装置での処理負荷を軽減でき、それらの処理速度を高速化することができる。

なお、上記の各実施の形態に示した言語処理装置の処理機能は、コンピュータによって実現することができる。その場合、各通信装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ／ＲＷなどがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

以上の各実施の形態に関し、さらに以下の付記を開示する。
（付記１）コンピュータに、
第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出し、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する、
処理を実行させることを特徴とする言語処理プログラム。

（付記２）前記重複数に基づき、当該重複数の算出に用いられた前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みが、前記第１の単語の読みとして正しいかの度合いを示す信頼度を算出する、
処理をさらに含むことを特徴とする付記１記載の言語処理プログラム。

（付記３）前記信頼度を算出する処理では、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする付記２記載の言語処理プログラム。

（付記４）前記重複率は、前記第２の抽出データに含まれる共起単語の総数に対する前記重複数として算出されることを特徴とする付記３記載の言語処理プログラム。
（付記５）前記第２のデータ群から前記第１の抽出データが複数抽出された場合、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数は、前記第１の抽出データごとに算出され、
前記信頼度は、算出された複数の重複数のうちの最大値に基づいて算出される、
ことを特徴とする付記２〜４のいずれか１つに記載の言語処理プログラム。

（付記６）前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する処理をさらに含むことを特徴とする付記５記載の言語処理プログラム。

（付記７）入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出する処理と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第１の単語の位置に、前記判別した読みを表示させ、さらに、当該第１の単語の表示状態を前記信頼度に応じて変化させる処理と、
をさらに含むことを特徴とする付記６記載の言語処理プログラム。

（付記８）入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する処理と、
変換された前記読みの情報における前記第１の単語の読みを、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みに決定する処理と、
をさらに含むことを特徴とする付記５記載の言語処理プログラム。

（付記９）前記第１の単語に読みがあらかじめ付与され、
前記第１のデータ群からの抽出処理では、少なくとも、前記第１の単語と表記が一致する対象単語と前記第１の単語に付与された読みとを含む前記第１のデータを抽出し、
さらに、
前記第１の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
処理をさらに含むことを特徴とする付記５記載の言語処理プログラム。

（付記１０）前記第１のデータ群から選択した対象単語を含む文章を所定の文章群から抽出し、抽出した文章から前記選択した対象単語と共起する共起単語を抽出し、前記選択した対象単語を前記第１の単語とするとともに、前記抽出した文章から抽出した共起単語を前記第２の単語として、前記第１のデータ群からの前記第１のデータの抽出処理を開始させる処理と、
前記第１のデータ群からの前記第１のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みを判別し、対象単語として前記第１の単語を含むとともに判別した読みを含む前記第１のデータ群の第１のデータに、前記第２の単語を共起単語として登録する処理と、
をさらに含むことを特徴とする付記５記載の言語処理プログラム。

（付記１１）前記第１の単語と表記が一致する対象単語を含む前記第１のデータは、前記第１のデータ群から複数抽出され、
前記重複度を判定する処理では、複数抽出された前記第１のデータのうち一の前記第１のデータを基に抽出された前記第１の抽出データと前記第２の抽出データとの間の共起単語の重複数を、第１の重複数として出力するとともに、他の前記第１のデータを基に抽出された前記第１の抽出データと前記第２の抽出データとの間の共起単語の重複数を、第２の重複数として出力し、
前記信頼度を算出する処理では、前記第１の重複数と前記第２の重複数のそれぞれに基づいて前記信頼度を算出し、前記第１の重複数と前記第２の重複数との差分または比に応じて、算出した前記信頼度を補正する、
ことを特徴とする付記２記載の言語処理プログラム。

（付記１２）前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語と、前記第２の単語とが一致するかを判定し、一致した場合には、前記第２の単語を共起単語として含む前記第１のデータに付与された読みについての前記信頼度として所定の上限値を出力する処理をさらに含み、
前記第２のデータ群から前記第１の抽出データおよび前記第２の抽出データを抽出する処理は、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語と、前記第２の単語とが一致しない場合に実行され、
前記重複度に基づく前記信頼度は、前記上限値以下の値として出力される、
ことを特徴とする付記２記載の言語処理プログラム。

（付記１３）第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出する第１の検索部と、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出する第２の検索部と、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
を有することを特徴とする言語処理装置。

（付記１４）前記重複数に基づき、当該重複数の算出に用いられた前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みが、前記第１の単語の読みとして正しいかの度合いを示す信頼度を算出する信頼度算出部をさらに有することを特徴とする付記１３記載の言語処理装置。

（付記１５）前記信頼度算出部は、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする付記１４記載の言語処理装置。

（付記１６）前記重複判定部は、前記第２のデータ群から前記第１の抽出データが複数抽出された場合、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を、前記第１の抽出データごとに算出し、
前記信頼度算出部は、前記信頼度を、算出された複数の重複数のうちの最大値に基づいて算出する、
ことを特徴とする付記１４または１５記載の言語処理装置。

（付記１７）前記信頼度算出部は、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する、
ことを特徴とする付記１６記載の言語処理装置。

（付記１８）入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出する単語抽出部と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第１の単語の位置に、前記判別した読みを表示させ、さらに、当該第１の単語の表示状態を前記信頼度に応じて変化させる表示制御部と、
をさらに有することを特徴とする付記１７記載の言語処理装置。

（付記１９）入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する単語抽出部と、
変換された前記読みの情報における前記第１の単語の読みを、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みに決定する読み決定処理部と、
をさらに有することを特徴とする付記１６記載の言語処理装置。

（付記２０）コンピュータが、
第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出し、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する、
ことを特徴とする言語処理方法。

１言語処理装置
１１第１の検索部
１２第２の検索部
１３重複判定部
２１第１のデータ群
２２第２のデータ群
２１ａ，２１ｂ，２２ａ，２２ｂレコード

Claims

コンピュータに、
第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出し、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する、
処理を実行させることを特徴とする言語処理プログラム。
前記重複数に基づき、当該重複数の算出に用いられた前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みが、前記第１の単語の読みとして正しいかの度合いを示す信頼度を算出する、
処理をさらに含むことを特徴とする請求項１記載の言語処理プログラム。
前記信頼度を算出する処理では、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする請求項２記載の言語処理プログラム。
前記第２のデータ群から前記第１の抽出データが複数抽出された場合、前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数は、前記第１の抽出データごとに算出され、
前記信頼度は、算出された複数の重複数のうちの最大値に基づいて算出される、
ことを特徴とする請求項２または３記載の言語処理プログラム。
前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する処理をさらに含むことを特徴とする請求項４記載の言語処理プログラム。
入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出する処理と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第１の単語の位置に、前記判別した読みを表示させ、さらに、当該第１の単語の表示状態を前記信頼度に応じて変化させる処理と、
をさらに含むことを特徴とする請求項５記載の言語処理プログラム。
入力文章から前記第１の単語と前記第２の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する処理と、
変換された前記読みの情報における前記第１の単語の読みを、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みに決定する処理と、
をさらに含むことを特徴とする請求項４記載の言語処理プログラム。
前記第１の単語に読みがあらかじめ付与され、
前記第１のデータ群からの抽出処理では、少なくとも、前記第１の単語と表記が一致する対象単語と前記第１の単語に付与された読みとを含む前記第１のデータを抽出し、
さらに、
前記第１の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
処理をさらに含むことを特徴とする請求項４記載の言語処理プログラム。
前記第１のデータ群から選択した対象単語を含む文章を所定の文章群から抽出し、抽出した文章から前記選択した対象単語と共起する共起単語を抽出し、前記選択した対象単語を前記第１の単語とするとともに、前記抽出した文章から抽出した共起単語を前記第２の単語として、前記第１のデータ群からの前記第１のデータの抽出処理を開始させる処理と、
前記第１のデータ群からの前記第１のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第２の抽出データとの間で共起単語の重複数が最大となった前記第１の抽出データに含まれる対象単語を共起単語として含むとともに前記第１の単語を対象単語として含む前記第１のデータに付与された読みを判別し、対象単語として前記第１の単語を含むとともに判別した読みを含む前記第１のデータ群の第１のデータに、前記第２の単語を共起単語として登録する処理と、
をさらに含むことを特徴とする請求項４記載の言語処理プログラム。
前記第１の単語と表記が一致する対象単語を含む前記第１のデータは、前記第１のデータ群から複数抽出され、
前記重複度を判定する処理では、複数抽出された前記第１のデータのうち一の前記第１のデータを基に抽出された前記第１の抽出データと前記第２の抽出データとの間の共起単語の重複数を、第１の重複数として出力するとともに、他の前記第１のデータを基に抽出された前記第１の抽出データと前記第２の抽出データとの間の共起単語の重複数を、第２の重複数として出力し、
前記信頼度を算出する処理では、前記第１の重複数と前記第２の重複数のそれぞれに基づいて前記信頼度を算出し、前記第１の重複数と前記第２の重複数との差分または比に応じて、前記信頼度を補正する、
ことを特徴とする請求項２記載の言語処理プログラム。
第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出する第１の検索部と、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出する第２の検索部と、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
を有することを特徴とする言語処理装置。
コンピュータが、
第１の単語およびこれと共起する第２の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第１のデータを複数含む第１のデータ群から、前記第１の単語と表記が一致する対象単語を含む前記第１のデータを少なくとも１つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも１つ対応付けられた第２のデータを複数含む第２のデータ群から、前記第１のデータ群から抽出された前記第１のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第２のデータを、それぞれ第１の抽出データとして抽出するとともに、前記第２の単語と同一の対象単語を含む前記第２のデータを、第２の抽出データとして抽出し、
前記第１の抽出データに含まれる共起単語と前記第２の抽出データに含まれる共起単語との重複数を判定する、
ことを特徴とする言語処理方法。