JP2013137672A - 言語処理プログラム、言語処理装置および言語処理方法 - Google Patents

言語処理プログラム、言語処理装置および言語処理方法 Download PDF

Info

Publication number
JP2013137672A
JP2013137672A JP2011288677A JP2011288677A JP2013137672A JP 2013137672 A JP2013137672 A JP 2013137672A JP 2011288677 A JP2011288677 A JP 2011288677A JP 2011288677 A JP2011288677 A JP 2011288677A JP 2013137672 A JP2013137672 A JP 2013137672A
Authority
JP
Japan
Prior art keywords
word
data
occurrence
extracted
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011288677A
Other languages
English (en)
Other versions
JP5853688B2 (ja
Inventor
Kentaro Murase
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011288677A priority Critical patent/JP5853688B2/ja
Publication of JP2013137672A publication Critical patent/JP2013137672A/ja
Application granted granted Critical
Publication of JP5853688B2 publication Critical patent/JP5853688B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】単語の読みの正しさを高精度に判定できる。
【解決手段】第1の検索部11は、第1の単語とこれに共起する第2の単語とを受け付け、第1のデータ群21から、第1の単語と表記が一致する対象単語を含む第1のデータを少なくとも1つ抽出する。第2の検索部12は、第2のデータ群22から、第1のデータ群21から抽出された第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む第2のデータを、それぞれ第1の抽出データとして抽出するとともに、第2の単語と同一の対象単語を含む第2のデータを、第2の抽出データとして抽出する。重複判定部13は、第1の抽出データに含まれる共起単語と第2の抽出データに含まれる共起単語との重複数を判定する。
【選択図】図1

Description

本発明は、言語処理プログラム、言語処理装置および言語処理方法に関する。
近年、音声合成技術が向上し、音声合成処理によって生成された音声(合成音声)が肉声にかなり近づいてきたことから、各種の案内音声を、ナレータの音声から合成音声に切り替える事例が増えている。一方で、言語解析の精度は人間の言語理解の精度にはほど遠いことから、合成音声によって読み上げる文章を言語解析によって生成した際には、漢字やアルファベットの文字列などの読み誤りが発生することがある。このため、例えば、大量の文章を音声合成処理する場合には、読み誤りのチェック作業に長時間を要する。
このような問題に対して、入力された文章から、読み誤りの可能性がある箇所を検出し、表示や音声などによってユーザに通知する技術が考えられている。また、読み誤りの可能性がある箇所の判定方法としては、辞書に登録されていない単語を読み誤りの可能性がある箇所と判定する方法、未知語、固有名詞、アルファベットを含む箇所などを読み誤りの可能性がある箇所と判定する方法、文節間の共起関係を記憶した共起辞書を用いる方法などがある。
特開2008−257116号公報 特開2007−199410号公報 特開2004−206659号公報 特開平02−201643号公報
上記のように、言語解析などによって文章に読みを付与する際には、付与される読みの誤りが発生する。このため、単語に付与された読みの正しさを、人手を介さずに高精度に判定できるようにすることが望まれている。特に、判定対象の文字とこれに共起する共起単語との組み合わせが、単語とその共起単語とがあらかじめ多数登録された共起辞書に登録されていない場合には、読みの正しさを判定できないという問題があった。
1つの側面では、本発明は、単語の読みの正しさを高精度に判定できるようにした言語処理プログラム、言語処理装置および言語処理方法を提供することを目的とする。
上記目的を達成するために、言語処理プログラムが提供される。コンピュータは、この言語処理プログラムに従って次のような処理を実行する。コンピュータは、第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対してこの対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、第1の単語と表記が一致する対象単語を含む第1のデータを少なくとも1つ抽出する。また、対象単語に対してこの対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、第1のデータ群から抽出された第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む第2のデータを、それぞれ第1の抽出データとして抽出するとともに、第2の単語と同一の対象単語を含む第2のデータを、第2の抽出データとして抽出する。また、第1の抽出データに含まれる共起単語と第2の抽出データに含まれる共起単語との重複数を判定する。
また、上記目的を達成するために、上記の言語処理プログラムを実行したコンピュータと同様の処理を実行する言語処理装置および言語処理方法が提供される。
1態様によれば、単語の読みの正しさを高精度に判定できる。
第1の実施の形態に係る言語処理装置の構成例および処理例を示す図である。 第2の実施の形態に係る言語処理装置のハードウェア構成例を示す図である。 第2の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。 共起単語DBに記憶される情報の例を示す図である。 共起単語DBに記憶される情報の例を示す図である。 入力文字列として「間を行った」が入力された場合の処理例を示す図である。 入力文字列として「会見を行った」が入力された場合の処理例を示す図である。 入力文字列として「道路が空く」が入力された場合の処理例を示す図である。 言語処理装置の処理手順の例を示すフローチャートである。 信頼度出力処理の第1の処理例を示すフローチャートである。 信頼度出力処理の第2の処理例を示すフローチャートである。 信頼度出力処理の第3の処理例を示すフローチャートである。 第3の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。 かな漢字文章の第1の表示例を示す図である。 かな漢字文章の第2の表示例を示す図である。 かな漢字文章の第3の表示例を示す図である。 第3の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。 第4の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。 第4の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。 第5の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。 第5の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
以下、実施の形態について図面を参照して詳細に説明する。
〔第1の実施の形態〕
図1は、第1の実施の形態に係る言語処理装置の構成例および処理例を示す図である。
図1に示す言語処理装置1は、検証対象である第1の単語と、この第1の単語に共起する第2の単語との入力を受け、第1の単語についての読みの正しさに関する検証結果を出力可能な装置である。第1の単語としては、複数の読み方が可能な単語とすることができる。
第1の単語と第2の単語は、例えば、別途用意された共通の文章から抽出されたものである。また、第1の単語と第2の単語は、例えば、互いに係り受け関係にあるものであってもよい。図1では、入力される第1の単語および第2の単語として、それぞれ「行った」、「式典を」を例示している。なお、例えば、第1の単語と第2の単語とを関連付ける付属語(上記の例では助詞「を」)については、第1の単語と第2の単語の両方に属するものとしてもよい。
また、言語処理装置1が出力する検証結果としては、例えば、第1の単語の読み候補が、第2の単語と共起する場合の第1の単語の読みとして正しいかの度合いを示す情報、あるいは、第2の単語と共起する場合の第1の単語の読みとして正しいと推定される読みの情報などがある。
言語処理装置1は、第1の検索部11、第2の検索部12および重複判定部13を備える。第1の検索部11、第2の検索部12および重複判定部13の処理は、例えば、言語処理装置1が備えるCPU(Central Processing Unit)が所定のプログラムを実行することで実現される。
また、言語処理装置1は、第1のデータ群21および第2のデータ群22を参照可能である。第1のデータ群21と第2のデータ群22は、例えば共通の、あるいはそれぞれ個別の不揮発性記憶装置に記憶される。
第1のデータ群21は、読みの情報が付与された対象単語に対して、この対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを、複数含んでいる。第1のデータは、データベースとしての第1のデータ群21における1つのレコードに対応する。
図1の例では、第1のデータ群21は、「行った」と表記される対象単語を含むレコード(第1のデータ)を含んでいる。ここで、「行った」と表記される単語は、「オコナッタ」および「イッタ」という2つの読み方が可能である。第1のデータ群21では、このように複数の読み方が可能な同一表記の対象単語については、読み方ごとに別のレコード(第1のデータ)として登録される。
なお、第1の単語として複数の読み方が可能な単語のみが入力される場合には、第1のデータ群21には、対象単語として、少なくとも、複数の読み方が可能な単語のみが登録されていればよい。
一方、第2のデータ群22は、対象単語に対してこの対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを、複数含んでいる。第2のデータは、データベースとしての第2のデータ群22における1つのレコードに対応する。また、第2のデータに含まれる対象単語には、第1のデータとは異なり、読みが付与されている必要はない。
第2のデータ群22には、少なくとも、第1のデータ群21において共起単語として登録された単語が、対象単語として登録される。図1の例では、第1のデータ群21において「行った(オコナッタ)」の共起単語として登録された「実験を」という単語が、第2のデータ群22において対象単語として登録されている。
なお、第2のデータ群22に含まれる対象単語にも、読みの情報が付与されていてもよい。この場合、第1のデータ群21と第2のデータ群22とを共通化することができる。この場合には、第1のデータ群21は、共通データベース内の一部のレコード群に対応し、第2のデータ群22は、共通データベース内の残りのレコード群における少なくとも一部に対応する。
第1の検索部11は、第1のデータ群21から、入力された第1の単語と表記が一致する対象単語を含むレコード(第1のデータ)を少なくとも1つ抽出する。第1の単語が複数の読み方が可能な単語である場合、第1の検索部11は、最大で読み方の数だけのレコードを抽出することができる。図1の例では、第1の検索部11は、第1の単語「行った」と表記が一致する対象単語をそれぞれ含む2つのレコード21a,21bを、第1のデータ群21から抽出する。
なお、例えば、入力される第1の単語にすでに読みが付与されており、付与された読みの確からしさを検証する場合には、第1の検索部11は、対象単語の表記が第1の単語と一致し、かつ、読みが第1の単語に付与された読みと一致する1つのレコードを、第1のデータ群21から抽出してもよい。
第2の検索部12は、第1の検索部11によって第1のデータ群21から抽出された少なくとも1つのレコード(第1のデータ)に含まれる共起単語のそれぞれと同一の対象単語を含むレコード(第2のデータ)を、第2のデータ群22から抽出する。このとき抽出されるレコードを「第1の抽出データ」と呼ぶことにする。図1の例では、第2の検索部12は、第1のデータ群21から抽出されたレコード21aに含まれる共起単語「実験を」と同一の対象単語を含むレコード22aを、第2のデータ群22から第1の抽出データとして抽出する。
また、第2の検索部12は、上記の第1の抽出データを抽出するとともに、第2の単語と同一の対象単語を含むレコード(第2のデータ)を、第2のデータ群22から抽出する。このとき抽出されるレコードを「第2の抽出データ」と呼ぶことにする。図1の例では、第2の検索部12は、第2の単語「式典を」と同一の対象単語を含むレコード22bを、第2のデータ群22から第2の抽出データとして抽出する。
なお、以上の第2の検索部12の処理は、例えば、第1の検索部11によって第1のデータ群21から抽出されたレコードに含まれる共起単語と、第2の単語とが一致しない場合にのみ、実行されてもよい。なぜなら、第1のデータ群21から抽出されたレコードに含まれる共起単語と、第2の単語とが一致した場合には、第2の単語と一致した共起単語を含む第1のデータ群21のレコード(第1のデータ)に登録された読みが、第1の単語の読みとして正しい可能性が非常に高いからである。
重複判定部13は、第2の検索部12によって抽出された第1の抽出データに含まれる共起単語と、第2の検索部12によって抽出された第2の抽出データに含まれる共起単語との重複数を判定する。図1の例では、重複判定部13は、第1の抽出データとして抽出されたレコード22aに含まれる共起単語と、第2の抽出データとして抽出されたレコード22bに含まれる共起単語との重複数を判定する。
ここで、第2のデータ群22におけるレコード22aの対象単語は、第1のデータ群21におけるレコード21aに共起単語として含まれるものの1つである。この場合、レコード22aに含まれる共起単語とレコード22bに含まれる共起単語との重複数から、第1のデータ群21におけるレコード21aの対象単語の読み「オコナッタ」が、第1の単語「行った」の読みとしてどの程度正しいかを推定することができる。
すなわち、レコード22aに含まれる共起単語とレコード22bに含まれる共起単語との間で重複する共起単語が多いほど、レコード22aの対象単語「実験を」と、レコード22bの対象単語「式典を」との関連性が深いと考えられる。そして、レコード22aの対象単語「実験を」が、第2の単語である「式典を」と関連性が深いと考えられる場合には、レコード21aにおいて「実験を」と対応付けられた読み「オコナッタ」は、第1の単語の読みとして正しい可能性が高いと推定できる。
従って、言語処理装置1は、例えば、第1の抽出データおよび第2の抽出データにそれぞれ含まれる共起単語の重複数に基づいて、第1の抽出データにおける対象単語を共起単語として含む第1のデータ群21のレコードに登録された読みが、第1のデータの読みとしてどの程度正しいかを示す情報(信頼度)を出力することができる。この信頼度は、例えば、第1の抽出データおよび第2の抽出データにそれぞれ含まれる共起単語の重複数に基づく重複率から、計算されてもよい。また、言語処理装置1は、正しさの度合いが所定の度合い以上である場合には、第1の抽出データにおける対象単語を共起単語として含む第1のデータ群21のレコードに登録された読みを、第1のデータについての正しい読みとして出力することもできる。
以上説明した言語処理装置1によれば、第1のデータ群21に、第1の単語と同一表記の対象単語に、共起単語として第2の単語が対応付けられたレコードが存在しない場合であっても、第1の単語についての読みの正しさの度合いを高精度に検証することができる。また、第1のデータ群21の各レコード(第1のデータ)に登録される共起単語が少ない場合でも、第1の単語についての読みの正確性を高精度に検証できるので、第1のデータ群21の作成処理(すなわち、第1のデータにおける共起単語の収集処理)を簡略化することもできる。
〔第2の実施の形態〕
図2は、第2の実施の形態に係る言語処理装置のハードウェア構成例を示す図である。
第2の実施の形態に係る言語処理装置100は、図2に示すようなコンピュータとして実現することができる。言語処理装置100は、CPU101によって装置全体が制御されている。CPU101には、バス108を介して、RAM(Random Access Memory)102と複数の周辺機器が接続されている。
RAM102は、言語処理装置100の主記憶装置として使用される。RAM102には、CPU101に実行させるOS(Operating System)プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。
バス108に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィックインタフェース104、入力インタフェース105、光学ドライブ装置106および通信インタフェース107がある。
HDD103は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、言語処理装置100の二次記憶装置として使用される。HDD103には、OSプログラム、アプリケーションプログラム、および各種データが格納される。なお、二次記憶装置としては、フラッシュメモリなどの他の種類の不揮発性記憶装置を使用することもできる。
グラフィックインタフェース104には、モニタ104aが接続されている。グラフィックインタフェース104は、CPU101からの命令に従って、画像をモニタ104aに表示させる。なお、モニタ104aは、例えば、液晶ディスプレイである。
入力インタフェース105には、キーボード105a、マウス105bなどの入力装置が接続されている。入力インタフェース105は、入力装置からの出力信号をCPU101に送信する。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク106aに記録されたデータの読み取りを行う。光ディスク106aは、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク106aには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(Rewritable)などがある。
通信インタフェース107は、ネットワーク107aを通じて、他の装置との間でデータを送受信する。
図3は、第2の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。
言語処理装置100は、第1の検索部111、判定部112、第2の検索部113、重複率計算部114および信頼度出力部115を備える。これらの各部の処理は、例えば、CPU101によって所定のプログラムが実行されることで実現される。また、言語処理装置100の不揮発性記憶装置(例えばHDD103)には、第1の共起単語DB(データベース)120および第2の共起単語DB130が記憶される。なお、第1の共起単語DB120および第2の共起単語DB130の少なくとも一方は、言語処理装置100の外部に設置された不揮発性記憶装置に記憶されてもよい。
ここで、図4,図5は、共起単語DBに記憶される情報の例を示す図である。
第1の共起単語DB120は図1の第1のデータ群21に対応するものであり、第2の共起単語130は、図1の第2のデータ群22に対応するものである。図4に示すように、第1の共起単語DB120には、対象単語の表記および読みごとにレコードが登録され、各レコードには、対象単語と共起する共起単語が少なくとも1つ登録されている。すなわち、第1の共起単語DB120では、複数の読み方が存在する対象単語については、読みごとに個別のレコードが登録される。
第1の共起単語DB120は、例えば、次のような手順で作成することができる。まず、コンピュータが、音声合成や機械翻訳などに使用される単語辞書から対象単語を抽出して、レコードを生成し、そのレコードに対象単語と読みを登録する。このとき、同一表記で複数の読み方が可能な単語については、個別のレコードに登録する。なお、言語処理装置100での検証対象の単語が複数の読み方が可能な単語に限定される場合には、同一表記で複数の読み方が可能な単語のみが、対象単語として第1の共起単語DB120に登録されてもよい。
次に、コンピュータは、任意の文書データベースから、対象単語として登録した単語が使用されている文章を抽出する。コンピュータは、抽出した文章に対する形態素解析や構文解析を行うことにより、対象単語の係り受け関係にある単語を抽出し、対象単語に対応する共起単語としてレコードに登録する。次に、人手により、共起単語として抽出した単語のそれぞれについて、対応する対象単語の読みを判定し、判定した読みに対応するレコードに登録する。
一方、図5に示すように、第2の共起単語DB130には、対象単語の表記ごとにレコードが登録され、各レコードには、対象単語と共起する共起単語が少なくとも1つ登録されている。図1の第2のデータ群22と同様に、第2の共起単語DB130には、少なくとも、第1の共起単語DB120において共起単語として登録された単語が、対象単語として登録される。
第2の共起単語DB130は、例えば、次のような手順で作成することができる。まず、コンピュータは、第1の共起単語DB120に共起単語として登録された単語を抽出し、抽出した単語を表記ごとに異なるレコードに登録する。このとき、第1の共起単語DB120に共起単語として登録されていない単語についても、例えば、ニュース記事や単語辞書などから抽出して、第1の共起単語DB120のレコードに対象単語として登録してもよい。
次に、コンピュータは、任意の文書データベースから、対象単語として登録した単語が使用されている文章を抽出する。コンピュータは、抽出した文章に対する形態素解析や構文解析を行うことにより、対象単語の係り受け関係にある単語を抽出し、対象単語に対応する共起単語としてレコードに登録する。このように、第2の共起単語DB130については、読みを登録する必要がないことから、人手を介さずに、コンピュータなどの機械によって自動的に作成することができる。
以下、図3に戻って説明する。
第1の検索部111には、検証対象の単語と、この単語と共起する共起単語とを含む入力文字列INが入力される。第1の検索部111は、入力文字列INに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第1の共起単語DB120から抽出する。
判定部112は、第1の検索部111によって第1の共起単語DB120から抽出されたレコードに含まれる共起単語の中に、入力文字列INに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語があった場合、判定部112は、その旨を信頼度出力部115に通知する。一方、一致する共起単語がなかった場合、判定部112は、その旨を第2の検索部113に通知する。
第2の検索部113は、判定部112から一致する共起単語がなかったことの通知を受けると、第1の検索部111が第1の共起単語DB120から抽出したレコードに含まれる共起単語を取得する。第2の検索部113は、取得した共起単語のそれぞれを対象単語として含むレコードを、第2の共起単語DB130から抽出する。以下、このとき抽出される各レコードを「第1の抽出レコード」と呼ぶ。
これとともに、第2の検索部113は、入力文字列INに含まれる共起単語を対象単語として含むレコードを、第2の共起単語DB130から抽出する。以下、このとき抽出されるレコードを「第2の抽出レコード」と呼ぶ。
重複率計算部114は、第2の検索部113によって抽出された第1の抽出レコードのそれぞれに含まれる共起単語と、第2の検索部113によって抽出された第2の抽出レコードに含まれる共起単語との重複率を、第1の抽出レコードごとに計算する。本実施の形態では、重複率は、第2の抽出レコードに含まれる共起単語の総数に対する、1つの第1の抽出レコードと第2の抽出レコードとの間で重複する共起単語の数の割合として計算される。また、算出された割合の値は、パーセント(%)の値に変換される。
信頼度出力部115は、入力文字列INに含まれる検証対象単語の読みが、入力文字列INに含まれる共起単語と共起した場合の検証対象単語の読みとして正しいかの度合いを示す信頼度を出力する。信頼度出力部115は、例えば、検証対象単語の読みとその信頼度とをペアにして出力する。また、信頼度出力部115は、読みの情報のみ、あるいは信頼度のみを出力してもよい。読みの情報のみが出力される場合とは、例えば、検証対象単語についての複数の読みのうち、入力文字列IN内の共起単語と組み合わせた場合に正しいと判定された読みが出力されることになる。一方、信頼度のみが出力される場合とは、例えば後述するように、検証対象単語にあらかじめ読みが付与されており、その読みの正しさが信頼度として出力される。
信頼度は、例えば、次のように出力される。
判定部112から一致する共起単語があった旨の通知を受けた場合には、信頼度出力部115は、入力文字列INに含まれる共起単語と同一の共起単語を含む第1の共起単語DB120のレコードから、読みの情報を抽出する。信頼度出力部115は、抽出した読みについての信頼度として、所定の最大値(例えば100%)を出力する。
一方、判定部112により一致する共起単語がないと判定された場合には、信頼度出力部115は、重複率計算部114で算出された重複率の値を取得し、これらの重複率に基づいて信頼度を判定する。信頼度出力部115は、重複率計算部114によって第1の抽出レコードごとに算出された重複率から、最大の重複率を判定する。信頼度出力部115は、最大の重複率の算出に用いられた第1の抽出レコードに含まれる対象単語を共起単語として含む、第1の共起単語DB120のレコードを選択する。信頼度出力部115は、選択したレコードに含まれる読みについての信頼度として、最大と判定した重複率に基づく値を出力する。この場合の信頼度は、例えば、最大と判定した重複率がそのまま出力されてもよい。あるいは、最大と判定した重複率を、判定部112が一致する共起単語があったと判定した場合の信頼度(最大値)を上限とした値に変換することで、信頼度が計算されてもよい。
次に、図6〜図8を用い、検証対象単語の具体例を挙げて、言語処理装置100における処理について説明する。以下の図6〜図8においては、左上側に第1の共起単語DB120に含まれる一部のレコードを示し、右上側に第2の共起単語DB130に含まれる一部のレコードを示す。また、下側には、第2の共起単語DB130のレコードに含まれる共起単語の数を、楕円の大きさによって模式的に表す。また、楕円同士が重なり合う領域の大きさは、各楕円に対応するレコードの間での共起単語の重複数を示す。なお、図6〜図8の処理例は、20万文程度の文章を基に作成した第2の共起単語DB130を用いて処理を行った場合の例である。
まず、図6は、入力文字列として「間を行った」が入力された場合の処理例を示す。この入力文字列INにおいては、検証対象単語は「を行った」であり、共起単語は「間を」である。
第1の検索部111は、第1の共起単語DB120から、検証対象単語「を行った」と同一表記の対象単語を含むレコードを抽出する。図6の例では、読み「オオコナッタ」を含むレコード121aと、読み「オイッタ」を含むレコード121bとが抽出される。
判定部112は、抽出されたレコード121a,121bに含まれる共起単語の中に、入力文字列INに含まれる共起単語「間を」が存在するかを判定する。この判定処理で、仮に、「間を」が共起単語として登録されたレコードが存在した場合には、そのレコードに登録された読みが検証対象単語の読みとして正しい可能性が極めて高い。この場合、信頼度出力部115は、「間を」が共起単語として登録されたレコード内の読みとともに、その信頼度として最大値(例えば100%)を出力する。
一方、図6の例では、第1の共起単語DB120には、「間を」が共起単語として登録されたレコードが存在しないものとする。この場合、第2の検索部113の処理が開始される。第2の検索部113は、第1の検索部111が第1の共起単語DB120から抽出したレコード121a,121bに含まれる共起単語「実験を」、「演説を」、「道を」を取得する。第2の検索部113は、取得した「実験を」、「演説を」、「道を」をそれぞれ対象単語として含むレコード131a,131b,131cを、第2の共起単語DB130からそれぞれ第1の抽出レコードとして抽出する。これとともに、第2の検索部113は、入力文字列INに含まれる共起単語「間を」を対象単語として含むレコード132を、第2の共起単語DB130から第2の抽出レコードとして抽出する。
重複率計算部114は、第1の抽出レコード(レコード131a〜131c)のそれぞれと第2の抽出レコード(レコード132)との間で重複する共起単語の数を判定し、重複率を計算する。ここで、第2の共起単語DB130では、第1の抽出レコードのそれぞれにおいて次のような個数の共起単語が登録されていたものとする。
レコード131aでは、対象単語「実験を」に対して、「繰り返す」、「する」、「した」などの113個の共起単語が対応付けられている。レコード131bでは、対象単語「演説を」に対して、「する」、「ぶつ」、「楽しむ」などの53個の共起単語が対応付けられている。レコード131cでは、対象単語「道を」に対して、「歩む」、「模索する」、「戻る」などの313個の共起単語が対応付けられている。
また、第2の抽出レコード(レコード132)では、対象単語「間を」に対して、「埋める」、「仲介する」、「歩く」などの71個の共起単語が対応付けられているものとする。
ここで、レコード131a,131b,131cのそれぞれとレコード132との間における共起単語の重複数は、それぞれ0個、0個、13個であったものとする。重複率計算部114は、重複率の分母を第2の抽出レコード(レコード132)に含まれる共起単語数“71”として、レコード131a,131b,131cのそれぞれとレコード132との間の共起単語の重複率を、次のように計算する。
共起単語「実験を」を含むレコード131aとの重複率=0/71×100=0%
共起単語「演説を」を含むレコード131bとの重複率=0/71×100=0%
共起単語「道を」を含むレコード131cとの重複率=13/71×100=18%
信頼度出力部115は、算出された重複率のうち、レコード131cとレコード132との間における共起単語の重複率(18%)が最大であることを判定する。重複率が最大であるレコード131cに含まれる対象単語「道を」は、他の第1の抽出レコード(レコード131a,131b)に含まれる対象単語「実験を」、「演説を」と比較して、第2の抽出レコード(レコード132)に含まれる対象単語「間を」、すなわち入力文字列INに含まれる共起単語との類似性または関連性が、最も高いと推定できる。換言すると、「道を」は、「実験を」、「演説を」と比較して、入力文字列INにおける共起単語「間を」と置換できる可能性が高いと推定できる。また、「道を」を入力文字列INにおける共起単語「間を」と置換できる可能性は、重複率が高いほど高くなる。
そこで、信頼度出力部115は、レコード131c内の対象単語「道を」を共起単語として含む第1の共起単語DB120のレコード121bから、読み「オイッタ」を抽出する。信頼度出力部115は、抽出した読み「オイッタ」の信頼性の値として、レコード131cに基づく重複率“18%”を出力する。
なお、後述するように、信頼度出力部115は、算出された重複率に基づいて、信頼度を最大値(100%)以下の範囲となるように計算により求めてもよいが、このような場合の計算方法の例については後述する。
次に、図7は、入力文字列として「会見を行った」が入力された場合の処理例を示す。この入力文字列INにおいては、検証対象単語は図6と同様に「を行った」である一方、共起単語は「会見を」である。
第1の検索部111は、第1の共起単語DB120から、検証対象単語「を行った」と同一表記の対象単語を含むレコード121a,121bを抽出する。判定部112は、抽出されたレコード121a,121bに含まれる共起単語の中に、入力文字列INに含まれる共起単語「会見を」が存在するかを判定する。図7の例では、第1の共起単語DB120には「会見を」が共起単語として登録されたレコードが存在しないことから、第2の検索部113の処理が開始される。
第2の検索部113は、第1の検索部111が第1の共起単語DB120から抽出したレコード121a,121bに含まれる共起単語「実験を」、「演説を」、「道を」を取得する。第2の検索部113は、取得した「実験を」、「演説を」、「道を」をそれぞれ対象単語として含むレコード131a,131b,131cを、第2の共起単語DB130からそれぞれ第1の抽出レコードとして抽出する。これとともに、第2の検索部113は、入力文字列INに含まれる共起単語「会見を」を対象単語として含むレコード133を、第2の共起単語DB130から第2の抽出レコードとして抽出する。
重複率計算部114は、第1の抽出レコード(レコード131a〜131c)のそれぞれと第2の抽出レコード(レコード133)との間で重複する共起単語の数を判定し、重複率を計算する。図6の例と同様に、レコード131aでは、対象単語「実験を」に対して113個の共起単語が対応付けられている。レコード131bでは、対象単語「演説を」に対して53個の共起単語が対応付けられている。レコード131cでは、対象単語「道を」に対して、313個の共起単語が対応付けられている。
また、第2の抽出レコード(レコード133)では、対象単語「会見を」に対して、「こなす」、「する」、「開く」などの40個の共起単語が対応付けられているものとする。
ここで、レコード131a,131b,131cのそれぞれとレコード133との間における共起単語の重複数は、それぞれ14個、17個、0個であったものとする。重複率計算部114は、重複率の分母を第2の抽出レコード(レコード133)に含まれる共起単語数“40”として、レコード131a,131b,131cのそれぞれとレコード133との間の共起単語の重複率を、次のように計算する。
共起単語「実験を」を含むレコード131aとの重複率=14/40×100=35%
共起単語「演説を」を含むレコード131bとの重複率=17/40×100=43%
共起単語「道を」を含むレコード131cとの重複率=0/40×100=0%
信頼度出力部115は、算出された重複率のうち、レコード131bとレコード133との間における共起単語の重複率(43%)が最大であることを判定する。信頼度出力部115は、レコード131b内の対象単語「演説を」を共起単語として含む第1の共起単語DB120のレコード121aから、読み「オオコナッタ」を抽出する。信頼度出力部115は、抽出した読み「オオコナッタ」の信頼性の値として、レコード131bに基づく重複率“43%”を出力する。
次に、図8は、入力文字列として「道路が空く」が入力された場合の処理例を示す。この入力文字列INにおいては、検証対象単語は「が空く」であり、共起単語は「道路が」である。
第1の検索部111は、第1の共起単語DB120から、検証対象単語「が空く」と同一表記の対象単語を含むレコード122a,122bを抽出する。判定部112は、抽出されたレコード122a,122bに含まれる共起単語の中に、入力文字列INに含まれる共起単語「道路が」が存在するかを判定する。図8の例では、第1の共起単語DB120には「道路が」が共起単語として登録されたレコードが存在しないことから、第2の検索部113の処理が開始される。
第2の検索部113は、第1の検索部111が第1の共起単語DB120から抽出したレコード122a,122bに含まれる共起単語「穴が」、「部屋が」、「電車が」、「腹が」を取得する。第2の検索部113は、取得した「穴が」、「部屋が」、「電車が」、「腹が」をそれぞれ対象単語として含むレコード134a,134b,134c,134dを、第2の共起単語DB130からそれぞれ第1の抽出レコードとして抽出する。これとともに、第2の検索部113は、入力文字列INに含まれる共起単語「道路が」を対象単語として含むレコード135を、第2の共起単語DB130から第2の抽出レコードとして抽出する。
重複率計算部114は、第1の抽出レコード(レコード134a〜134d)のそれぞれと第2の抽出レコード(レコード135)との間で重複する共起単語の数を判定し、重複率を計算する。ここで、第2の共起単語DB130では、第1の抽出レコードのそれぞれにおいて次のような個数の共起単語が登録されていたものとする。
レコード134aでは、対象単語「穴が」に対して、「ある」、「開く」、「閉まる」などの45個の共起単語が対応付けられている。レコード134bでは、対象単語「部屋が」に対して、「ある」、「狭い」、「使える」などの30個の共起単語が対応付けられている。レコード134cでは、対象単語「電車が」に対して、「ストップする」、「ない」、「近づく」などの26個の共起単語が対応付けられている。レコード134dでは、対象単語「腹が」に対して、「すわる」、「立つ」、「へる」などの27個の共起単語が対応付けられている。
また、第2の抽出レコード(レコード135)では、対象単語「道路が」に対して、「できる」、「ない」、「横切る」などの35個の共起単語が対応付けられているものとする。
ここで、レコード134a,134b,134c,134dのそれぞれとレコード135との間における共起単語の重複数は、それぞれ0個、2個、5個、0個であったものとする。重複率計算部114は、重複率の分母を第2の抽出レコード(レコード135)に含まれる共起単語数“35”として、レコード134a,134b,134c,134dのそれぞれとレコード135との間の共起単語の重複率を、次のように計算する。
共起単語「穴が」を含むレコード134aとの重複率=0/35×100=0%
共起単語「部屋が」を含むレコード134bとの重複率=2/35×100=6%
共起単語「電車が」を含むレコード134cとの重複率=5/35×100=15%
共起単語「腹が」を含むレコード134dとの重複率=0/35×100=0%
信頼度出力部115は、算出された重複率のうち、レコード134cとレコード135との間における共起単語の重複率(15%)が最大であることを判定する。信頼度出力部115は、レコード134c内の対象単語「電車が」を共起単語として含む第1の共起単語DB120のレコード122bから、読み「ガスク」を抽出する。信頼度出力部115は、抽出した読み「ガスク」の信頼性の値として、レコード134cに基づく重複率“15%”を出力する。
ところで、上記の図6〜図8の例では、重複率の最大値は43%という一見低い値となった。20万文程度の文章を用いて検証した結果、読みが正しい場合であっても重複率は10%〜40%程度にしかならないことがわかった。この場合、重複率が40%程度ならば、実際の信頼度は100%に近いと見なすことができる。また、重複率が例えば20%程度ならば、実際の信頼度は最大値100%と最小値0%との中間値付近と見なすことができる。
そこで、信頼度出力部115は、算出された重複率を決められた手順に従い、最大値100%までの範囲で増加させることで、信頼度を求めてもよい。ここでは例として、計算方法1,2の2つの例を挙げる。
<計算方法1>
信頼度出力部115は、算出された重複率に対して1より大きい所定の係数(例えば“2”)を乗算し、その乗算結果を信頼度として出力する。ただし、乗算結果が100%を超えた場合には、信頼度の出力値を100%とする。なお、例えば、このような重複率に係数を乗算する計算を、重複率が所定のしきい値(例えば10%)以上の場合のみ行うようにしてもよい。また、この場合、重複率がしきい値未満の場合には、出力する信頼度の値を0%としてもよい。
<計算方法2>
上記のように重複率が10%〜40%となっても読みが正しい場合が多いことに鑑み、信頼度出力部115は、重複率が10%〜40%であるとき、重複率を80%〜100%の値に変換して信頼度とし、重複率が40%を超えるとき、信頼度を一律に100%とする。また、重複率が0%以上10%未満であるとき、重複率を0%以上80%未満の値に変換して信頼度とする。このような場合の信頼度の計算手順の例を以下に示す。
重複率が0%以上10%未満:信頼度=重複率×8
重複率が10%以上40%未満:信頼度=80+(重複率−10)×2/3
重複率が40%以上:信頼度=100
また、信頼度出力部115は、次の「変換方法1」の例のように、信頼度を段階的な値として用意しておき、重複率を所定のしきい値と比較することで、重複率を信頼度の段階の値に変換してもよい。ここでは例として、信頼度を、高い順に「高」、「中」、「低」の3段階のいずれかとして出力する。
<変換方法1>
重複度が0%以上5%未満:信頼度「低」
重複度が5%以上10%未満:信頼度「中」
重複度が10%以上:信頼度「高」
次に、言語処理装置100の処理についてフローチャートを用いて説明する。図9は、言語処理装置の処理手順の例を示すフローチャートである。
[ステップS11]第1の検索部111は、入力文字列INに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第1の共起単語DB120から抽出する。
[ステップS12]判定部112は、第1の検索部111によって第1の共起単語DB120から抽出されたレコードに含まれる共起単語の中に、入力文字列INに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語があった場合、判定部112は、その旨を信頼度出力部115に通知する。この場合、ステップS13の処理が実行される。一方、一致する共起単語がなかった場合、判定部112は、その旨を第2の検索部113に通知する。この場合、ステップS14の処理が実行される。
[ステップS13]信頼度出力部115は、入力文字列INに含まれる共起単語と一致する共起単語を含む第1の共起単語DB120のレコードに登録された読みを出力するとともに、その読みの信頼度として最大値を出力する。上記の計算方法1,2のいずれかを用いた場合、信頼度“100%”が出力される。また、上記の変換方法1を用いた場合、信頼度「高」が出力される。
[ステップS14]第2の検索部113は、ステップS11で第1の検索部111が第1の共起単語DB120から抽出したレコードに含まれる共起単語を取得する。第2の検索部113は、取得した共起単語のそれぞれを対象単語として含むレコードを、第2の共起単語DB130から第1の抽出レコードとして抽出する。
[ステップS15]第2の検索部113は、入力文字列INに含まれる共起単語を対象単語として含むレコードを、第2の共起単語DB130から第2の抽出レコードとして抽出する。
なお、ステップS14,S15の処理順は、逆であってもよい。
[ステップS16]重複率計算部114は、ステップS14で抽出された第1の抽出レコードのそれぞれに含まれる共起単語と、ステップS15で抽出された第2の抽出レコードに含まれる共起単語との重複率を、第1の抽出レコードごとに計算する。
[ステップS17]信頼度出力部115は、ステップS16で算出された重複度を基に信頼度を出力する。
ここで、ステップS17での信頼度出力処理について、例として3つの処理例を示す。
図10は、信頼度出力処理の第1の処理例を示すフローチャートである。
[ステップS21]信頼度出力部115は、図9のステップS16の算出結果から、重複率が最大になった第1の抽出レコードを判別する。
[ステップS22]信頼度出力部115は、ステップS21で判別した第1の抽出レコード(第2の共起単語DB130のレコード)に含まれる対象単語を共起単語として含む、第1の共起単語DB120のレコード(すなわち、図9のステップS11で抽出されたレコードのいずれか)を判別する。信頼度出力部115は、判別したレコードに登録された読みを、検証対象単語の読みとして出力する。これとともに、信頼度出力部115は、ステップS21で最大であると判別した重複率に基づいて、検証対象単語の読みの信頼度を出力する。信頼度としては、例えば、重複率と同じ値が出力されてもよい。あるいは、前述の計算方法1、計算方法2、変換方法1のいずれかの手順で信頼度が出力されてもよい。
なお、例えば、入力文字列INにおいて、検証対象単語にあらかじめ読みが付与されている場合には、図9の処理手順を次のように変形することもできる。ステップS11において、第1の検索部111は、検証対象単語と表記が一致し、かつ検証対象単語に付与された読みが登録されたレコードのみを、第1の共起単語DB120から抽出する。そして、ステップS14では、第2の検索部113は、ステップS11で抽出された1つのレコードに含まれる共起単語を取得し、取得した共起単語のそれぞれを対象単語として含むレコードを第2の共起単語DB130から抽出する。このような処理により、信頼度出力部115からは、検証対象単語にあらかじめ付与された読みの正しさの度合いが、信頼度として出力されるようになる。
図11は、信頼度出力処理の第2の処理例を示すフローチャートである。
[ステップS31]信頼度出力部115は、図9のステップS16で算出された重複率の最大値を、第1の抽出レコードに含まれる対象単語を共起単語として含む、第1の共起単語DB120のエントリごとに(すなわち、検証対象単語の読みごとに)判定する。ここで、検証対象単語の読みごとに判別された重複率の最大値を、「読み別最大重複率」と呼ぶ。
例えば、図8において、第1の抽出レコードのうちレコード134a,134bに含まれる対象単語は、第1の共起単語DB120のレコード122aに共起単語として登録されたものである。また、ステップS16では、レコード134aと第2の抽出レコード(レコード135)との間の共起単語の重複率が0%と算出され、レコード134bと第2の抽出レコード(レコード132)との間の共起単語の重複率が6%と判定される。そこで、信頼度出力部115は、レコード122aに登録された読み「ガアク」に対応する読み別最大重複率を6%と判定する。
一方、図8において、第1の抽出レコードのうちレコード134c,134dに含まれる対象単語は、第1の共起単語DB120のレコード122bに共起単語として登録されたものである。また、ステップS16では、レコード134cと第2の抽出レコード(レコード135)との間の共起単語の重複率が15%と算出され、レコード134dと第2の抽出レコード(レコード135)との間の共起単語の重複率が0%と判定される。そこで、信頼度出力部115は、レコード122bに登録された読み「ガスク」に対応する読み別最大重複率を15%と判定する。
[ステップS32]信頼度出力部115は、算出された読み別最大重複率に基づき、信頼度を読みごとに出力する。
例えば、図8の例では、検証対象単語の読み「ガアク」に対応する読み別最大重複率が6%であるので、信頼度出力部115は、読み別最大重複率“6%”に基づいて、読み「ガアク」の信頼度を出力する。また、検証対象単語の読み「ガスク」に対応する読み別最大重複率が15%であるので、信頼度出力部115は、読み別最大重複率“15%”に基づいて、読み「ガスク」の信頼度を出力する。信頼度としては、例えば、重複率と同じ値が出力されてもよい。あるいは、前述の計算方法1、計算方法2、変換方法1のいずれかの手順で信頼度が出力されてもよい。
以上の図11の処理では、信頼度出力部115は、検証対象単語の読みをすべて出力するとともに、それぞれの読みが、検証対象単語が入力文字列INの共起単語と共起した場合の読みとして正しいかの度合いを示す信頼度を出力する。
図12は、信頼度出力処理の第3の処理例を示すフローチャートである。
この第3の処理例は、図11の処理によって出力された信頼度を、読み別最大重複率同士の比較結果に基づいて補正するものである。なお、図12では、図11と同様の処理ステップには同じ符号を付して示す。また、図12では例として、検証対象単語について2種類の読み方が可能であるものとする。従って、ステップS32では、2つの読みとそれらに対応する信頼度とが出力される。
[ステップS33]信頼度出力部115は、ステップS32で出力された信頼度が両方とも“低い値”であるかを判定する。両方とも“低い値”である場合、ステップS34の処理が実行される。一方、信頼度の少なくとも一方が“低い値”でない場合、ステップS35の処理が実行される。
信頼度出力部115は、例えば、信頼度を所定のしきい値と比較することで、信頼度が“低い値”であるかを判定する。信頼度が上記の計算方法1,2のいずれかで出力される場合、しきい値を80%とすることが望ましい。この場合、信頼度出力部115は、算出された2つの信頼度がともに80%未満である場合、ステップS34の処理を実行する。一方、信頼度出力部115は、算出された信頼度の少なくとも一方が80%以上の場合、ステップS35の処理を実行する。
また、例えば、信頼度が上記の変換方法1で出力される場合、信頼度出力部115は、変換された2つの信頼度がともに「中」以下である場合、ステップS34の処理を実行する。一方、信頼度出力部115は、変換された信頼度の少なくとも一方が「高」である場合、ステップS35の処理を実行する。
[ステップS34]出力された信頼度がともに“低い値”である場合には、信頼度の精度が低い可能性が高いため、どちらの読みが正しいかを正確に判定できない。このため、信頼度出力部115は、ステップS32で出力された2つの信頼度をともに低下させるような補正を行う。例えば、上記の計算方法1,2のように信頼度が割合の値として出力された場合、信頼度出力部115は、出力された信頼度を一定量、または一定割合分だけ低下させる。また、上記の変換方法1のように信頼度が段階的な値として出力された場合、信頼度出力部115は、出力された信頼度を所定段階数分だけ低下させる。
[ステップS35]信頼度出力部115は、ステップS32で出力された信頼度が両方とも“高い値”であるかを判定する。両方とも“高い値”である場合、ステップS36の処理が実行される。一方、信頼度の少なくとも一方が“高い値”でない場合、信頼度が補正されずに処理が終了される。
信頼度出力部115は、例えば、ステップS33と同様に、信頼度を所定のしきい値と比較することで、信頼度が“高い値”であるかを判定する。信頼度が上記の計算方法1,2のいずれかで出力される場合、しきい値を80%とすることが望ましい。この場合、信頼度出力部115は、算出された2つの信頼度がともに80%以上である場合、ステップS36の処理を実行する。一方、信頼度出力部115は、算出された信頼度の一方が80%以上で他方が80%未満である場合、信頼度を補正せずに処理を終了する。
また、例えば、信頼度が上記の変換方法1で出力される場合、信頼度出力部115は、変換された2つの信頼度がともに「高」である場合、ステップS36の処理を実行する。一方、信頼度出力部115は、変換された信頼度の一方が「高」で他方が「中」以下である場合、信頼度を補正せずに処理を終了する。
このステップS35で「No」と判定される場合には、信頼度の差分が大きく、しかも一方の信頼度が高い値を示していることから、信頼度の高い方の読みが正しい可能性が高い。このため、信頼度を補正せずに出力しても、信頼度の精度を保つことができる。なお、ステップS35で「No」と判定された場合、信頼度出力部115は、低い方の信頼度を低下させて、低下させた信頼度に対応する読みが正しくないことが明確に示されるようにしてもよい。
[ステップS36]信頼度出力部115は、ステップS32で出力された信頼度の差分(絶対値)または比を計算する。なお、比は、値が低い方の信頼度に対する高い方の信頼度の割合を示し、1以上の値となる。信頼度出力部115は、算出した差分または比が一定値以上である場合、信頼度の高い方の読みが正しい可能性が高いことから、信頼度を補正せずに処理を終了する。一方、信頼度出力部115は、算出した差分または比が一定値未満である場合、ステップS37の処理を実行する。
[ステップS37]算出された信頼度がどちらも高い値であっても、それらの差分または比が小さい場合には、信頼度の精度が必ずしも高いとは言えず、どちらの読みが正しいかを正確に判定できない。このため、信頼度出力部115は、ステップS32で出力された信頼度のうち高い方の値を低下させるような補正を行う。例えば、上記の計算方法1,2のように信頼度が割合の値として出力された場合、信頼度出力部115は、高い方の信頼度を一定量、または一定割合分だけ低下させる。また、上記の変換方法1のように信頼度が段階的な値として出力された場合、信頼度出力部115は、高い方の信頼度を所定段階数分だけ低下させる。ただし、いずれの場合でも、高い方の信頼度の補正後の値が、他方の信頼度より低くならないようにすることが望ましい。
信頼度出力部115は、高い方の信頼度だけでなく、低い方の信頼度も低下させてもよい。この場合でも、高い方の信頼度の補正後の値が、他方の信頼度より低くならないようにすることが望ましい。
以上の第3の処理例によれば、異なる読みに対応する信頼度同士を比較結果に基づき、信頼度自体の正確性が疑わしいと考えられる場合には、信頼度を低下させる方向に補正する。これにより、信頼度同士での比較を行わない第2の処理例と比較して、信頼度の精度を向上させることができる。
以上説明した第2の実施の形態に係る言語処理装置100によれば、検証対象単語の読みの信頼度を高精度に判定することができる。特に、入力文字列INに含まれる検証対象単語とその共起単語との組み合わせが、第1の共起単語DB120に登録されていない場合(すなわち、図9のステップS12で不一致と判定される場合)であっても、第2の共起単語DB130を用いて、検証対象単語の読みの信頼度を検証することが可能である。従って、第2の共起単語DB130と比較して、第1の共起単語DB120に登録される共起単語の数が少ない場合であっても、検証対象単語の読みの信頼度を検証できるようになる。
第1の共起単語DB120は、対象単語に対応する共起単語だけでなく、対象単語の読みの情報も含んでいる。このため、第1の共起単語DB120に対して多くの共起単語を登録する作業は、第2の共起単語DB130に共起単語を登録する作業と比較して手間がかかる。上記の言語処理装置100によれば、第1の共起単語DB120に登録される共起単語の数が少ない場合でも、検証対象単語の読みの信頼度を検証できるので、第1の共起単語DB120の作成に要するコストを低減できる。従って、言語処理装置100の製造・開発コストを抑制しつつ、検証対象単語の読みの信頼度を高精度に判定することが可能になる。
なお、上記の第2の実施の形態では、第1の抽出レコードと第2の抽出レコードとの間での共起単語の重複率を基に信頼度を算出した。しかしながら、他の例として、第1の抽出レコードと第2の抽出レコードとの間での共起単語の重複数を基に信頼度を算出してもよい。例えば図9のステップS16では、重複率計算部114は第1の抽出レコードごとに重複率ではなく重複数を出力する。そして、図9のステップS17において、信頼度出力部115は重複率の代わりに重複数を用いて同様の処理を行う。
このように重複度の代わりに重複数を用いた処理は、例えば、信頼度出力部115が、検証対象単語の読みとして正しいと判定した読みの情報のみを出力する場合に好適である。この場合、信頼度出力部115は、検証対象単語についての複数の読みのうち、入力文字列IN内の共起単語と組み合わせた場合に正しいと判定した読みを、重複数が最大となる第1の抽出レコードを基に判定して出力することができる。
さらに、重複数の代わりに、重複数を第2の抽出レコードに含まれる共起単語数で正規化(すなわち除算)した数を基に、信頼度が算出されてもよい。ただし、重複数を第2の抽出レコードに含まれる共起単語数で正規化した場合には、第2の抽出レコードに登録されている共起単語数が多いほど、信頼度の値が低くなってしまう。このため、第2の共起単語DB130のレコードごとの共起単語数の違いが誤差となって、信頼度の精度を低下させる可能性がある。
また、これとは別に、上記の第2の実施の形態では、重複率計算部114での共起単語の重複率の計算が第1の抽出レコードごとに行われた。しかしながら、他の例として、重複率計算部114は、第1の抽出レコードと第2の抽出レコードとの間での共起単語の重複数を、検証対象単語の同じ読みに対応する第1の抽出レコード同士で合計し、その合計値を基に重複率を計算してもよい。
例えば、図7の例において、重複率計算部114は、レコード131aとレコード133との間での共起単語の重複数“17”と、レコード131bとレコード133との間での共起単語の重複数“14”との合計値“31”を算出する。この場合、信頼度出力部115は、合計値“31”をレコード133の共起単語数“40”で除算した値を、読み「オオコナッタ」に対応する信頼度として出力する。また、信頼度出力部115は、重複率の代わりに重複数の合計値“31”を基に信頼度を出力してもよい。
ただし、このように重複数の合計値を用いて信頼度を出力した場合には、1つの読みに対応する第1の共起単語DB120のレコードに登録された共起単語数が多いほど、信頼度の値が高くなる可能性がある。このため、第1の共起単語DB120のレコードごとの共起単語数の違いが誤差となって、信頼度の精度を低下させる可能性がある。これに対して、重複数の合計値を第1の共起単語DB120のレコードに含まれる共起単語数で除算して正規化した値を用いたり、または、あくまで1つの第1の抽出レコードと、第2の抽出レコードとの間での共起単語の重複数を基に信頼度を計算したりすることで、このような誤差の発生を防止し、信頼度の精度を向上させることができる。
〔第3の実施の形態〕
図13は、第3の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図13では、図3に対応する構成要素については同じ符号を付して示している。
図13の言語処理装置100aは、図3の言語処理装置100の機能に加えて、かな漢字文章から複数の読み方が可能な単語(以下、「複数読み単語」と呼ぶ)とその共起単語とを抽出する機能と、抽出された複数読み単語についての読み誤りの可能性を表示によってユーザにわかりやすく提示する機能とを備えるものである。
この言語処理装置100aは、第1の検索部111、判定部112、第2の検索部113、重複率計算部114および信頼度出力部115に加えて、形態素解析部141、複数読み単語抽出部142、構文解析部143および信頼度表示処理部144を備える。なお、言語処理装置100aは、例えば、図2に示したようなコンピュータとして実現される。そして、形態素解析部141、複数読み単語抽出部142、構文解析部143および信頼度表示処理部144の各処理は、言語処理装置100aが備えるCPUによって所定のプログラムが実行されることで実現される。
また、言語処理装置100aの不揮発性記憶装置には、言語辞書145と表示DB(データベース)144aとが記憶されている。なお、言語辞書145および表示DB144aの少なくとも一方は、言語処理装置100aの外部に設けられた不揮発性記憶装置に記憶されていてもよい。
言語辞書145には、例えば、複数の単語の表記のそれぞれに対して、読み、意味、品詞分類、アクセント情報などが対応付けて記憶されている。形態素解析部141は、かな漢字文章の入力を受け、言語辞書145を参照しながら形態素解析を行うことにより、かな漢字文章を読み情報の付与された形態素列に分解する。
複数読み単語抽出部142は、言語辞書145を参照しながら、形態素解析部141によって分解された形態素列の中から、複数の読み方が考えられる形態素列を検出する。複数の読み方が可能であることは、言語辞書145において、形態素列に含まれる単語の表記に対して複数の読みが対応付けられていることから判定できる。複数読み単語抽出部142は、複数読み単語を含む形態素列を構文解析部143に出力する。これとともに、複数読み単語抽出部142は、入力されたかな漢字文章に対して複数読み単語の位置を識別する情報を付与して、信頼度表示処理部144に出力する。
構文解析部143は、複数読み単語抽出部142から供給された形態素列を文節にまとめ、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部143は、複数読み単語を含む文節の係り受け先を特定する。構文解析部143は、入力文字列INの検証対象単語として複数読み単語を、入力文字列INの共起単語として複数読み単語の係り受け先の文節を、それぞれ第1の検索部111に供給する。このとき、構文解析部143は、複数読み単語の読みのうちの任意の1つ、または推定した1つを、検証対象単語の読みとして入力文字列INに付与してもよい。
このようにして第1の検索部111に入力文字列INが入力されることで、前述の第2の実施の形態と同様の処理により、信頼度出力部115からは、検証対象単語の読みのそれぞれについての信頼度が出力される。また、検証対象単語に読みの情報が付与されていた場合には、付与されていた読みに対応する信頼度のみが信頼度出力部115から出力されてもよい。
信頼度表示処理部144は、複数読み単語抽出部142から供給されたかな漢字文章をディスプレイに表示するための表示情報を生成する。この表示情報においては、複数読み単語の箇所を、信頼度出力部115から出力された信頼度ごとに異なる状態で表示させる。信頼度に応じた表示状態については、表示DB144aに設定されている。例えば、信頼度に応じて異なる色で表示する場合には、表示DB144aには、信頼度と色との関係を示す情報が設定されている。
図14は、かな漢字文章の第1の表示例を示す図である。
図14の表示画面P1には、言語処理装置100aに入力されるかな漢字文章200が表示されている。信頼度表示処理部144は、表示させたかな漢字文章200のうち、複数読み単語が表示された表示部201〜206について、信頼度ごとに異なる表示状態で表示を行う。図14の例では、信頼度表示処理部144は、0%以上20%未満、20%以上40%未満、40%以上60%未満、60%以上80%未満、80%以上100%以下の5段階の信頼度について、それぞれ異なる背景で示している。この場合例えば、信頼度の各段階に対応するしきい値範囲および背景の表示状態を指示する情報(色など)が、表示DB144aに設定される。なお、信頼度ごとの表示状態の変え方としては、他に例えば、文字の色を変える、文字の太さやフォントを変えるなどの方法もある。
信頼度表示処理部144が表示画面P1に表示している信頼度は、信頼度出力部115から出力される読みごとの信頼度のうちの最大値である。また、表示部201について拡大して示したように、表示部201〜206には、元のかな漢字文章200中の文字とともに、表示した信頼度に対応する読みも示している。これにより、複数読み単語の読みとして最も正しい可能性の高い読みとともに、その読みの正しさを示す信頼度を、ユーザにわかりやすく提示することができる。
なお、例えば、表示部201〜206には元のかな漢字文章200中の文字のみをそのまま表示し、表示部201〜206のそれぞれにマウスポインタを合わせる、あるいはクリック操作することにより、信頼度に対応する読みを表示するようにしてもよい。また、表示部201〜206には元のかな漢字文章の文字を表示せず、読みの情報のみを表示してもよい。
図15は、かな漢字文章の第2の表示例を示す図である。なお、図15では、図14に対応する要素には同じ符号を付して示す。
図15の表示画面P2は、構文解析部143が検証対象単語に対して読みを付与した場合の表示例である。この場合、信頼度表示処理部144は、複数読み単語の表示部201〜206について、付与された読みについての信頼度ごとに異なる表示状態で表示を行う。また、信頼度表示処理部144は、表示部201〜206に、元のかな漢字文章200の文字の代わりに、構文解析部143によって付与された読みを表示する。これにより、構文解析部143によって自動付与された読みの正しさを示す信頼性を、ユーザにわかりやすく提示することができる。
図16は、かな漢字文章の第3の表示例を示す図である。
図16の表示画面P3は、複数読み単語の表示部201〜206について、その単語を読み誤る可能性の数値ごとに異なる表示状態で表示したものである。表示部201〜206には、元のかな漢字文章200中の文字がそのまま表示される。信頼度表示処理部144は、信頼度出力部115から出力される信頼度の最大値を100%から差し引いた値を、読み誤りの可能性として算出し、その算出値ごとに異なる表示状態で表示部201〜206の表示を行う。これにより、複数読み単語の位置と、その単語を読み誤る可能性とを、ユーザにわかりやすく提示することができる。
図17は、第3の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
[ステップS51]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。
[ステップS52]複数読み単語抽出部142は、言語辞書145を参照しながら、形態素解析部141によって分解された形態素列の中から、複数読み単語を含む形態素列を検出する。複数読み単語抽出部142は、複数読み単語を含む形態素列を構文解析部143に出力する。これとともに、複数読み単語抽出部142は、入力されたかな漢字文章に対して複数読み単語の位置を識別する情報を付与して、信頼度表示処理部144に出力する。
[ステップS53]構文解析部143は、言語辞書145を参照しながら、複数読み単語抽出部142から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部143は、複数読み単語を含む文節の係り受け先を特定する。構文解析部143は、入力文字列INの検証対象単語として複数読み単語を、入力文字列INの共起単語として複数読み単語の係り受け先の文節を、それぞれ第1の検索部111に供給する。このとき、構文解析部143は、複数読み単語の読みのうちの任意の1つ、または推定した1つを、検証対象単語の読みとして入力文字列INに付与してもよい。
[ステップS54]ステップS55の処理が、構文解析部143から入力される入力文字列INの数だけ、すなわち、かな漢字文章から検出された複数読み単語の数だけ、繰り返し実行される。
[ステップS55]構文解析部143から入力された入力文字列INを用いて、第1の検索部111、判定部112、第2の検索部113、重複率計算部114および信頼度出力部115による図9と同様の処理が実行される。信頼度出力部115からは、入力文字列IN内の検証対象単語1つについて、複数の読みと、それぞれの読みに対応する信頼度とが出力される。
なお、構文解析部143から入力された入力文字列INに検証対象単語の読みが付与されている場合には、信頼度出力部115からは、付与された読みとその信頼度という1組の情報が出力されてもよい。この場合、第1の検索部111が、付与された読みに対応するレコードのみを第1の共起単語DB120から抽出し、それ以後、抽出されたレコード内の共起単語のみを用いて信頼度の出力処理が実行される。ただし、検証対象単語の読みが付与されている場合でも、例えば、第1の検索部111が、付与された読み以外の読みに対応するレコードも第1の共起単語DB120から抽出するようにして、図12に示したような信頼度出力処理が実行され、最終的に信頼度出力部115から、検証対象単語に付与された読みのみに対応する信頼度が出力されるようにしてもよい。これにより、出力される信頼度の精度を高めることができる。
[ステップS56]かな漢字文章から検出されたすべての複数読み単語についてステップS55の処理が終了している場合、ステップS57の処理が実行される。
[ステップS57]信頼度表示処理部144は、複数読み単語抽出部142から供給されたかな漢字文章をディスプレイに表示するための表示情報を生成する。これとともに、信頼度表示処理部144は、表示DB144aを参照しながら、かな漢字文章内の複数読み単語の部分について、信頼度出力部115からの信頼度ごとに異なる表示状態で表示を行う。この表示処理については、図14〜図16において説明した通りである。
以上の第3の実施の形態によれば、入力されたかな漢字文章を表示した表示画面上に、複数読み単語の位置と、その読みに関する信頼性または単語の読み誤り可能性をわかりやすく表示させることができる。このため、かな漢字文章をチェックするユーザは、読みが正しいかの確認の必要な箇所を簡単かつ正確に認識することができる。従って、音声合成用の文書データを作成する際などの作業負荷を大幅に軽減することができる。
〔第4の実施の形態〕
図18は、第4の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図18では、図3および図13に対応する構成要素については同じ符号を付して示している。
図18の言語処理装置100bは、図3の言語処理装置100の処理を、音声合成用の表音文字列をかな漢字文章から自動生成する処理に適用したものである。すなわち、図18の言語処理装置100bは、入力されたかな漢字文章を、読みの情報、アクセント情報、ポーズ情報などを含む表音文字列に変換して出力するとともに、かな漢字文章に含まれる複数読み単語の読みを正確に判定し、表音文字列の正確性を向上させるものである。
この言語処理装置100bは、図13と同様の第1の検索部111、判定部112、第2の検索部113、重複率計算部114、信頼度出力部115、形態素解析部141、複数読み単語抽出部142および構文解析部143に加えて、読み決定部151および韻律情報付与部152を備える。なお、言語処理装置100bは、例えば、図2に示したようなコンピュータとして実現される。そして、読み決定部151および韻律情報付与部152の各処理は、言語処理装置100bが備えるCPUによって所定のプログラムが実行されることで実現される。
読み決定部151は、複数読み単語抽出部142から、かな漢字文章から抽出された複数読み単語の通知を受ける。読み決定部151は、通知された複数読み単語のそれぞれについて、信頼度出力部115からの読みおよび信頼度に基づいて、正しいと推定される読みを決定し、韻律情報付与部152に出力する。
韻律情報付与部152は、形態素解析部141、複数読み単語抽出部142、構文解析部143から、それぞれ、形態素情報、かな漢字文章の読みの情報、係り受け情報や文節情報を取得する。韻律情報付与部152は、言語辞書145を参照しながら、係り受け情報や文節情報に基づいて、取得した読みの情報にアクセント情報、ポーズ情報を付与し、表音文字列として出力する。また、韻律情報付与部152は、取得したかな漢字文書の読みの情報のうち、複数読み単語の領域については、読み決定部151によって決定された読みを採用して表音文字列を生成する。
図19は、第4の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
[ステップS71]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。
[ステップS72]複数読み単語抽出部142は、言語辞書145を参照しながら、形態素解析部141によって分解された形態素列の中の読みを判定し、入力されたかな漢字文章の読み情報を韻律情報付与部152に出力する。このとき、複数読み単語抽出部142は、形態素列から複数読み単語を含むものを抽出したときには、韻律情報付与部152に出力する読み情報に複数読み単語の位置を示す情報を付加する。なお、複数読み単語についての読みは、韻律情報付与部152に出力情報に含めなくてもよいし、あるいは、適当な読みを出力情報に含めるようにしてもよい。
また、複数読み単語抽出部142は、抽出した複数読み単語を含む形態素列を構文解析部143に出力するとともに、抽出した複数読み単語を読み決定部151に対して通知する。なお、読み決定部151に通知された複数読み単語は、例えば、言語処理装置100bのRAMなどに抽出順に蓄積される。
[ステップS73]構文解析部143は、言語辞書145を参照しながら、複数読み単語抽出部142から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定し、韻律情報付与部152に係り受け情報や文節情報を供給する。さらに、構文解析部143は、複数読み単語を含む文節の係り受け先を特定する。構文解析部143は、入力文字列INの検証対象単語として複数読み単語を、入力文字列INの共起単語として複数読み単語の係り受け先の文節を、それぞれ第1の検索部111に供給する。
[ステップS74]ステップS75の処理が、構文解析部143から入力される入力文字列INの数だけ、すなわち、かな漢字文章から検出された複数読み単語の数だけ、繰り返し実行される。
[ステップS75]構文解析部143から入力された入力文字列INを用いて、第1の検索部111、判定部112、第2の検索部113、重複率計算部114および信頼度出力部115による図9と同様の処理が実行される。信頼度出力部115からは、入力文字列IN内の検証対象単語1つについて、複数の読みと、それぞれの読みに対応する信頼度とが出力される。
[ステップS76]かな漢字文章から検出されたすべての複数読み単語についてステップS75の処理が終了している場合、ステップS77の処理が実行される。
[ステップS77]読み決定部151は、複数読み単語抽出部142から通知された複数読み単語のそれぞれについて、信頼度出力部115からの読みおよび信頼度に基づいて、正しいと推定される読みを決定し、韻律情報付与部152に出力する。具体的には、読み決定部151は、信頼度出力部115から出力された読みごとの信頼度のうち最大のものを判別し、最大の信頼度に対応する読みを正しい読みとして決定する。
[ステップS78]韻律情報付与部152は、複数読み単語抽出部142から出力された読み情報に対して、アクセント情報、ポーズ情報を付与し、表音文字列として出力する。アクセント情報は、構文解析部143から取得した文節情報、係り受け情報や、言語辞書145、および品詞や単語の属性に基づく所定のアクセント変化ルールに基づいて決定される。アクセント変化ルールについても、言語辞書145に定義されていてもよい。ポーズ情報は、構文解析部143によって解析される文節間の係り受け情報や文字数に基づいて決定される。また、韻律情報付与部152は、複数読み単語抽出部142から出力された読み情報のうち、複数読み単語の位置の読みについては、読み決定部151によって決定された読みを代入する。
以上の第4の実施の形態によれば、音声合成に用いる表音文字列を、人手に頼ることなく、かつ正確に生成することができる。従って、音声合成を用いた製品の開発・製造コストを低減することができる。
〔第5の実施の形態〕
図20は、第5の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図20では、図3および図13に対応する構成要素については同じ符号を付して示している。
図20の言語処理装置100cは、図3の言語処理装置100の処理を利用して、第1の共起単語DB120のレコードに対して共起単語を自動的に登録できるようにした装置である。言語処理装置100cは、図13に示した第1の検索部111、判定部112、第2の検索部113、重複率計算部114、信頼度出力部115、形態素解析部141、複数読み単語抽出部142および構文解析部143に加えて、文章抽出部161およびDB(データベース)更新部162を備える。なお、言語処理装置100cは、例えば、図2に示したようなコンピュータとして実現される。そして、文章抽出部161およびDB更新部162の各処理は、言語処理装置100cが備えるCPUによって所定のプログラムが実行されることで実現される。
また、言語処理装置100cの不揮発性記憶装置には、大規模文章コーパス163が記憶される。なお、この大規模文章コーパス163は、言語処理装置100cの外部に設けられた不揮発性記憶装置に記憶されていてもよい。
なお、図20では、第1の共起単語DB120は言語処理装置100cの外部に設けられているが、第1の共起単語DB120は言語処理装置100cの内部の不揮発性記憶装置に記憶されていてもよい。
文章抽出部161は、大規模文章コーパス163から、第1の共起単語DB120に対象単語として登録された複数読み単語を含む文章を抽出して、形態素解析部141に出力する。
DB更新部162は、構文解析部143から、第1の検索部111に供給される入力文字列INを取得する。DB更新部162は、取得した入力文字列INに対応する読みおよび信頼度を信頼度出力部115から取得し、信頼度が最大かつ所定値以上の読みを、入力文字列INの検証対象単語についての正しい読みと判定する。DB更新部162は、検証対象単語の表記と、正しいと判定した読みとを含む第1の共起単語DB120のレコードに、入力文字列INに含まれる共起単語を、レコード内の共起単語として登録する。
図21は、第5の実施の形態に係る言語処理装置の処理手順の例を示すフローチャートである。
[ステップS91]文章抽出部161により、第1の共起単語DB120から対象単語が1つ選択されるごとに、ステップS92以下の処理が実行される。そして、ループ端であるステップS106までの処理が、第1の共起単語DB120に含まれるすべての対象単語について繰り返し実行される。ただし、文章抽出部161は、第1の共起単語DB120において同一表記で複数の読み方が可能な対象単語については、処理対象として1つだけ選択すればよい。
[ステップS92]文章抽出部161は、大規模文章コーパス163から、選択した対象単語を含む文章を抽出する。
[ステップS93]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、ステップS92で抽出された文章を形態素列に分解する。
[ステップS94]複数読み単語抽出部142は、言語辞書145を参照しながら、形態素解析部141によって分解された形態素列から複数読み単語を含むものを抽出する。なお、このとき抽出される複数読み単語は、文章抽出部161によって選択された対象単語と同一であることから、ステップS93,S94の処理を省略することもできる。
[ステップS95]構文解析部143は、言語辞書145を参照しながら、複数読み単語抽出部142から供給された形態素列から、品詞や意味属性に基づいて文節間の係り受け関係を推定する。構文解析部143は、複数読み単語を含む文節の係り受け先を特定する。構文解析部143は、入力文字列INの検証対象単語として複数読み単語を、入力文字列INの共起単語として複数読み単語の係り受け先の文節を、それぞれ第1の検索部111に供給する。このとき第1の検索部111に供給される入力文字列INにおける検証対象単語は、すべて同一表記の単語である。また、構文解析部143は、同じ入力文字列INをDB更新部162にも供給する。
構文解析部143は、ステップS94で抽出された、複数読み単語を含む形態素列の数だけの入力文字列INを、第1の検索部111およびDB更新部162に出力する。
[ステップS96]ループ端であるステップS105までの処理が、構文解析部143から入力される入力文字列INの数だけ繰り返し実行される。
[ステップS97]第1の検索部111は、入力文字列INに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第1の共起単語DB120から抽出する。
[ステップS98]判定部112は、第1の検索部111によって第1の共起単語DB120から抽出されたレコードに含まれる共起単語の中に、入力文字列INに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語がなかった場合、判定部112は、その旨を第2の検索部113に通知する。この場合、ステップS99の処理が実行される。
一方、一致する共起単語があった場合、その共起単語は第1の共起単語DB120にすでに登録されている。この場合、判定部112は、DB更新部162に対して登録の必要がない旨を通知する。この後、ステップS105のループ端に処理が移る。通知を受けたDB更新部162は、処理対象を現在の入力文字列INから、次に構文解析部143から入力された入力文字列INに移す。
[ステップS99]第2の検索部113は、ステップS97で第1の検索部111が第1の共起単語DB120から抽出したレコードに含まれる共起単語を取得する。第2の検索部113は、取得した共起単語のそれぞれを対象単語として含むレコードを、第2の共起単語DB130から第1の抽出レコードとして抽出する。
[ステップS100]第2の検索部113は、入力文字列INに含まれる共起単語を対象単語として含むレコードを、第2の共起単語DB130から第2の抽出レコードとして抽出する。
なお、ステップS99,S100の処理順は、逆であってもよい。
[ステップS101]重複率計算部114は、ステップS99で抽出された第1の抽出レコードのそれぞれに含まれる共起単語と、ステップS100で抽出された第2の抽出レコードに含まれる共起単語との重複率を、第1の抽出レコードごとに計算する。
[ステップS102]信頼度出力部115は、ステップS101で算出された重複度を基に信頼度を出力する。信頼度の出力方法としては、例えば、図10〜図12のいずれかの方法を用いることができる。信頼度出力部115は、検証対象単語の読みとともに、各検証対象単語に対応する信頼度を、DB更新部162に出力する。
[ステップS103]DB更新部162は、ステップS102で信頼度出力部115から入力された信頼度の最大値が、所定のしきい値以上であるかを判定する。DB更新部162は、信頼度の最大値がしきい値以上の場合、ステップS104の処理を実行する。一方、DB更新部162は、信頼度の最大値がしきい値未満である場合には、取得した信頼度自体の信頼性が低く、この信頼度に基づいて第1の共起単語DB120を更新するべきでないと判断する。このとき、ステップS105のループ端に処理が移る。
[ステップS104]DB更新部162は、最大の信頼度に対応する読みが、入力文字列INにおける検証対象単語の正しい読みであると判定する。DB更新部162は、検証対象単語の表記と、正しいと判定した読みとを含む第1の共起単語DB120のレコードに、入力文字列INに含まれる共起単語を、レコード内の共起単語として登録する。
[ステップS105]構文解析部143から出力されたすべての入力文字列INについてループ内の処理が終了した場合、ステップS106の処理が実行される。
[ステップS106]文章抽出部161によって選択された第1の共起単語DB120内のすべての対象単語について、ループ内の処理が終了した場合、処理全体が終了する。
以上の第5の実施の形態の言語処理装置100cによれば、第1の共起単語DB120に対して共起単語を人手を介さず、かつ正確に登録することができるようになる。従って、第2〜第4の実施の形態の各言語処理装置を運用するための事前作業としての、第1の共起単語DB120の構築作業を効率化することができる。その結果、読みの信頼度の判定精度を高めることができる。これとともに、第2〜第4の実施の形態における第2の検索部113、重複率計算部114および信頼度出力部115の処理の実行頻度が低くなることから、第2〜第4の実施の形態の各言語処理装置での処理負荷を軽減でき、それらの処理速度を高速化することができる。
なお、上記の各実施の形態に示した言語処理装置の処理機能は、コンピュータによって実現することができる。その場合、各通信装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM、CD−R/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上の各実施の形態に関し、さらに以下の付記を開示する。
(付記1) コンピュータに、
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
処理を実行させることを特徴とする言語処理プログラム。
(付記2) 前記重複数に基づき、当該重複数の算出に用いられた前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する、
処理をさらに含むことを特徴とする付記1記載の言語処理プログラム。
(付記3) 前記信頼度を算出する処理では、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする付記2記載の言語処理プログラム。
(付記4) 前記重複率は、前記第2の抽出データに含まれる共起単語の総数に対する前記重複数として算出されることを特徴とする付記3記載の言語処理プログラム。
(付記5) 前記第2のデータ群から前記第1の抽出データが複数抽出された場合、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数は、前記第1の抽出データごとに算出され、
前記信頼度は、算出された複数の重複数のうちの最大値に基づいて算出される、
ことを特徴とする付記2〜4のいずれか1つに記載の言語処理プログラム。
(付記6) 前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する処理をさらに含むことを特徴とする付記5記載の言語処理プログラム。
(付記7) 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出する処理と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる処理と、
をさらに含むことを特徴とする付記6記載の言語処理プログラム。
(付記8) 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する処理と、
変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する処理と、
をさらに含むことを特徴とする付記5記載の言語処理プログラム。
(付記9) 前記第1の単語に読みがあらかじめ付与され、
前記第1のデータ群からの抽出処理では、少なくとも、前記第1の単語と表記が一致する対象単語と前記第1の単語に付与された読みとを含む前記第1のデータを抽出し、
さらに、
前記第1の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
処理をさらに含むことを特徴とする付記5記載の言語処理プログラム。
(付記10) 前記第1のデータ群から選択した対象単語を含む文章を所定の文章群から抽出し、抽出した文章から前記選択した対象単語と共起する共起単語を抽出し、前記選択した対象単語を前記第1の単語とするとともに、前記抽出した文章から抽出した共起単語を前記第2の単語として、前記第1のデータ群からの前記第1のデータの抽出処理を開始させる処理と、
前記第1のデータ群からの前記第1のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、対象単語として前記第1の単語を含むとともに判別した読みを含む前記第1のデータ群の第1のデータに、前記第2の単語を共起単語として登録する処理と、
をさらに含むことを特徴とする付記5記載の言語処理プログラム。
(付記11) 前記第1の単語と表記が一致する対象単語を含む前記第1のデータは、前記第1のデータ群から複数抽出され、
前記重複度を判定する処理では、複数抽出された前記第1のデータのうち一の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第1の重複数として出力するとともに、他の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第2の重複数として出力し、
前記信頼度を算出する処理では、前記第1の重複数と前記第2の重複数のそれぞれに基づいて前記信頼度を算出し、前記第1の重複数と前記第2の重複数との差分または比に応じて、算出した前記信頼度を補正する、
ことを特徴とする付記2記載の言語処理プログラム。
(付記12) 前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語と、前記第2の単語とが一致するかを判定し、一致した場合には、前記第2の単語を共起単語として含む前記第1のデータに付与された読みについての前記信頼度として所定の上限値を出力する処理をさらに含み、
前記第2のデータ群から前記第1の抽出データおよび前記第2の抽出データを抽出する処理は、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語と、前記第2の単語とが一致しない場合に実行され、
前記重複度に基づく前記信頼度は、前記上限値以下の値として出力される、
ことを特徴とする付記2記載の言語処理プログラム。
(付記13) 第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出する第1の検索部と、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出する第2の検索部と、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
を有することを特徴とする言語処理装置。
(付記14) 前記重複数に基づき、当該重複数の算出に用いられた前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する信頼度算出部をさらに有することを特徴とする付記13記載の言語処理装置。
(付記15) 前記信頼度算出部は、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする付記14記載の言語処理装置。
(付記16) 前記重複判定部は、前記第2のデータ群から前記第1の抽出データが複数抽出された場合、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を、前記第1の抽出データごとに算出し、
前記信頼度算出部は、前記信頼度を、算出された複数の重複数のうちの最大値に基づいて算出する、
ことを特徴とする付記14または15記載の言語処理装置。
(付記17) 前記信頼度算出部は、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する、
ことを特徴とする付記16記載の言語処理装置。
(付記18) 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出する単語抽出部と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる表示制御部と、
をさらに有することを特徴とする付記17記載の言語処理装置。
(付記19) 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する単語抽出部と、
変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する読み決定処理部と、
をさらに有することを特徴とする付記16記載の言語処理装置。
(付記20) コンピュータが、
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
ことを特徴とする言語処理方法。
1 言語処理装置
11 第1の検索部
12 第2の検索部
13 重複判定部
21 第1のデータ群
22 第2のデータ群
21a,21b,22a,22b レコード

Claims (12)

  1. コンピュータに、
    第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
    対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
    前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
    処理を実行させることを特徴とする言語処理プログラム。
  2. 前記重複数に基づき、当該重複数の算出に用いられた前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する、
    処理をさらに含むことを特徴とする請求項1記載の言語処理プログラム。
  3. 前記信頼度を算出する処理では、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする請求項2記載の言語処理プログラム。
  4. 前記第2のデータ群から前記第1の抽出データが複数抽出された場合、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数は、前記第1の抽出データごとに算出され、
    前記信頼度は、算出された複数の重複数のうちの最大値に基づいて算出される、
    ことを特徴とする請求項2または3記載の言語処理プログラム。
  5. 前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する処理をさらに含むことを特徴とする請求項4記載の言語処理プログラム。
  6. 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出する処理と、
    前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる処理と、
    をさらに含むことを特徴とする請求項5記載の言語処理プログラム。
  7. 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する処理と、
    変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する処理と、
    をさらに含むことを特徴とする請求項4記載の言語処理プログラム。
  8. 前記第1の単語に読みがあらかじめ付与され、
    前記第1のデータ群からの抽出処理では、少なくとも、前記第1の単語と表記が一致する対象単語と前記第1の単語に付与された読みとを含む前記第1のデータを抽出し、
    さらに、
    前記第1の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
    処理をさらに含むことを特徴とする請求項4記載の言語処理プログラム。
  9. 前記第1のデータ群から選択した対象単語を含む文章を所定の文章群から抽出し、抽出した文章から前記選択した対象単語と共起する共起単語を抽出し、前記選択した対象単語を前記第1の単語とするとともに、前記抽出した文章から抽出した共起単語を前記第2の単語として、前記第1のデータ群からの前記第1のデータの抽出処理を開始させる処理と、
    前記第1のデータ群からの前記第1のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、対象単語として前記第1の単語を含むとともに判別した読みを含む前記第1のデータ群の第1のデータに、前記第2の単語を共起単語として登録する処理と、
    をさらに含むことを特徴とする請求項4記載の言語処理プログラム。
  10. 前記第1の単語と表記が一致する対象単語を含む前記第1のデータは、前記第1のデータ群から複数抽出され、
    前記重複度を判定する処理では、複数抽出された前記第1のデータのうち一の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第1の重複数として出力するとともに、他の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第2の重複数として出力し、
    前記信頼度を算出する処理では、前記第1の重複数と前記第2の重複数のそれぞれに基づいて前記信頼度を算出し、前記第1の重複数と前記第2の重複数との差分または比に応じて、前記信頼度を補正する、
    ことを特徴とする請求項2記載の言語処理プログラム。
  11. 第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出する第1の検索部と、
    対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出する第2の検索部と、
    前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
    を有することを特徴とする言語処理装置。
  12. コンピュータが、
    第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
    対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
    前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
    ことを特徴とする言語処理方法。
JP2011288677A 2011-12-28 2011-12-28 言語処理プログラム、言語処理装置および言語処理方法 Expired - Fee Related JP5853688B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011288677A JP5853688B2 (ja) 2011-12-28 2011-12-28 言語処理プログラム、言語処理装置および言語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011288677A JP5853688B2 (ja) 2011-12-28 2011-12-28 言語処理プログラム、言語処理装置および言語処理方法

Publications (2)

Publication Number Publication Date
JP2013137672A true JP2013137672A (ja) 2013-07-11
JP5853688B2 JP5853688B2 (ja) 2016-02-09

Family

ID=48913339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011288677A Expired - Fee Related JP5853688B2 (ja) 2011-12-28 2011-12-28 言語処理プログラム、言語処理装置および言語処理方法

Country Status (1)

Country Link
JP (1) JP5853688B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105697365B (zh) * 2016-03-21 2018-06-08 常州大学 一种弦线轮加工方法及非接触式弦线轮转子泵

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0363767A (ja) * 1989-08-01 1991-03-19 Ricoh Co Ltd テキスト音声合成装置
JPH03116373A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 多義性解消方法
JP2000137718A (ja) * 1998-11-04 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0363767A (ja) * 1989-08-01 1991-03-19 Ricoh Co Ltd テキスト音声合成装置
JPH03116373A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 多義性解消方法
JP2000137718A (ja) * 1998-11-04 2000-05-16 Nippon Telegr & Teleph Corp <Ntt> 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015020715; 相澤 彰子: '大規模テキストコーパスを用いた語の類似度計算に関する考察' 情報処理学会論文誌 第49巻第3号, 20080315, p.1426-1436, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
JP5853688B2 (ja) 2016-02-09

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US20120304056A1 (en) Automatic Detection and Application of Editing Patterns in Draft Documents
Neme et al. Pattern-and-root inflectional morphology: the Arabic broken plural
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
JP2014240884A (ja) コンテンツ作成支援装置、方法およびプログラム
Zait et al. Addressing lexical and semantic ambiguity in natural language requirements
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
Alvarez et al. Improving the automatic segmentation of subtitles through conditional random field
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
De Kuthy et al. Towards automatically generating questions under discussion to link information and discourse structure
Koleva et al. An automatic part-of-speech tagger for Middle Low German
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP5853688B2 (ja) 言語処理プログラム、言語処理装置および言語処理方法
Rajan et al. Survey of nlp resources in low-resource languages nepali, sindhi and konkani
Rytting et al. Spelling correction for dialectal Arabic dictionary lookup
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
Núñez et al. Phonetic normalization for machine translation of user generated content
Dashti et al. PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis
Neme A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers
JP5302784B2 (ja) 機械翻訳方法、及びシステム
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151123

R150 Certificate of patent or registration of utility model

Ref document number: 5853688

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees