JP2017208097A

JP2017208097A - エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置

Info

Publication number: JP2017208097A
Application number: JP2017100185A
Authority: JP
Inventors: ファン・ルゥ; Lu Fang; ミアオ・チンリアン; Qingliang Miao; 遥孟; Yao Meng
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-05-20
Filing date: 2017-05-19
Publication date: 2017-11-24
Also published as: CN107402933A

Abstract

【課題】エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避方法及び回避装置を提供する。【解決手段】エンティティの多音字の曖昧さ回避方法は、入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識ステップＳ１０２と、該少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、該対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は該対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップＳ１０４とを含む。【選択図】図１

Description

本発明は、情報処理の分野に関し、具体的には、ＬＯＤ（ＬｉｎｋｅｄＯｐｅｎＤａｔａ：リンクト・オープン・データ）からエンティティの発音を取得でき、エンティティの多音字の発音に対して曖昧さ回避を行うことができるエンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置に関する。

ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ：テキスト読み上げ）技術は、テキスト変換技術とも称され、現在の音声合成の代表的な内容であり、コンピュータを用いて任意のテキストを音声に変換する技術を指す。入力されたテキストを対応する発音に変換する必要があるため、多音字の曖昧さ回避はテキスト変換の重要なテーマである。多音字の変換の正確さは、ユーザの合成音声に対する理解状況に大きな影響を及ぼす。多音字の曖昧さ回避の正確率が高いと、合成された音声はユーザにより理解されやすく、よりスムーズなものと聞こえる。

中国語又は日本語に大量の多音字が存在するため、多音字の発音の決定方法は中国語又は日本語の音声合成分野における重要に解決する必要がある課題となっている。従来は、多音字の曖昧さ回避は主に２つの種類を含み、１つは法則を手動的に纏めて定める方法であり、もう１つは機械学習の方法を用いて多音字の曖昧さ回避を行うことである。そのうち、手動により法則を纏める方法は、人の手間がかかり、多音字の発音に法則がない場合はあり、人間もその発音を判断できない。例えば、日本語では、同一の漢字は人の名前によって発音も異なる場合がある。機械学習の方法では、一般的に、大量の手動的にラベリングするコーパスが必要となるため、同様に時間や手間がかかってしまう。

リンクト・データ（ＬｉｎｋｅｄＤａｔａ）は、Ｗｅｂを用いて異なるデータソースの間で意味的関連性を作成する一連の最適な実務方法である。リンクト・データはユニークなリソース識別子（ＵＲＩ）を用いてリソース（エンティティとして理解されてもよい）をラベリングするため、各エンティティは一義性を有し、トリプルの形で各リソースメタデータ、即ち関連する属性及び属性値を提供する。リンクト・データを開発してインターネット上に公表するものはリンクト・オープン・データ（ＬＯＤ：ＬｉｎｋｅｄＯｐｅｎＤａｔａ）と称され、通常の大規模のＬＯＤのデータセットはＤＢｐｅｄｉａ、Ｆｒｅｅｂａｓｅ等を含む。例えば、ＤＢｐｅｄｉａはＷｉｋｉｐｅｄｉａの構造化されたデータセットであり、あるエンティティのＷｉｋｉｐｅｄｉａのページを編集する場合は、常にその発音を同時に提供するが、固定の方式で提供することではない。ＬＯＤでは、一部のリソースに発音のような属性が存在し、且つ各リソースはユニークな識別子を有するため、ＬＯＤを用いて多音字のリソースに対して曖昧さ回避を行うことが検討されている。

以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。

上記の問題点を鑑み、本発明は、ＬＯＤからエンティティの発音をエンティティの発音の曖昧さ回避の結果として取得でき、エンティティの多音字の発音に対して曖昧さ回避を行うことができるエンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置を提供することを目的とする。

本発明の１つの態様では、入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識ステップと、前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法を提供する。

本発明のもう１つの態様では、入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識手段と、前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置を提供する。

本発明の他の態様では、上記本発明の態様の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記本発明の態様の方法を実現するためのコンピュータプログラムコードを記録したコンピュータ読み取り可能な記憶媒体をさらに提供する。

以下の発明な詳細の部分において本発明の実施例の他の態様を説明し、そのうち、本発明の実施例を十分に公開する好ましい実施例を詳細に説明し、本発明はこれらの実施例に限定されない。

本発明の上記及び他の目的、特徴及び利点をより明確にするように、以下は図面を参照しながら本発明の実施例を説明する。図面における各部は、単なる本発明の原理を示すためのものである。図面では、同一又は類似の技術的特徴又は構成部について同一又は類似の符号で示される。
本発明の実施例のエンティティの多音字の曖昧さ回避方法の例を示すフローチャートである。ＬＯＤのデータセットにおけるエンティティの１つの例を示す図である。ＬＯＤのデータセットにおけるエンティティのもう１つの例を示す図である。ＬＯＤのデータセットにおけるエンティティのもう１つの例を示す図である。本発明の実施例のエンティティの多音字の曖昧さ回避装置の機能的構成の例を示すブロック図である。本発明の実施例に適用可能な情報処理装置となるパーソナルコンピュータの例示的な構成を示すブロック図である。

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。

なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び／又は処理のステップのみが示され、本発明と関係のない細部が省略される。

以下は図面を参照しながら本発明の実施例を詳細に説明する。

まず、図１を参照しながら本発明の実施例のエンティティの多音字の曖昧さ回避方法の一例を説明する。図１は本発明の実施例のエンティティの多音字の曖昧さ回避方法の例を示すフローチャートである。図１に示すように、本発明の実施例のエンティティの多音字の曖昧さ回避方法は、エンティティ認識ステップＳ１０２及び発音決定ステップＳ１０４を含んでもよい。

まず、エンティティ認識ステップＳ１０２において、入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識してもよい。

具体的には、エンティティ認識ステップＳ１０２において、命名エンティティ認識技術を用いて入力テキストにおけるエンティティを認識してもよい。なお、これは単なる一例であり、本発明を限定するものではなく、当業者は他の技術を用いて入力テキストにおけるエンティティを認識してもよい。例えば、日本語のセンテンス「世界最強の選手が集うＡＴＰツアー・ファイナルに錦織圭（日清食品）が初出場」において、人名「錦織圭」及び機関名「日清食品」を認識してもよく、ここで、「錦織圭」は多音字「錦織」を含むエンティティである。

発音決定ステップＳ１０４において、該少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は対応エンティティに関連する発音に基づいて、該エンティティの発音を決定してもよい。

本実施例では、ＬＯＤのデータセットはＤＢｐｅｄｉａであるが、これは単なる一例であり、本発明を限定するものではない。また、ＬＯＤのデータセットはＦｒｅｅｂａｓｅ等であってもよい。

エンティティ認識ステップＳ１０２において認識された「錦織圭」及び「日清食品」について、エンティティリンク技術を用いてこれらのエンティティをＬＯＤのデータセットにおける対応エンティティにそれぞれリンクしてもよい。例えば、「錦織圭」をＤＢｐｅｄｉａにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織圭」にリンクし、対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は該対応エンティティに関連する発音に基づいて、エンティティ「錦織圭」の発音を決定してもよい。また、「日清食品」をＤＢｐｅｄｉａにおける対応エンティティ「http://ja.dbpedia.org/resource/日清食品」にリンクし、対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は該対応エンティティに関連する発音に基づいて、エンティティ「日清食品」の発音を決定してもよい。ＬＯＤにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがない。

好ましくは、該少なくとも１つの属性は、属性値が即ち発音である少なくとも１つの第１所定属性を含んでもよい。ＬＯＤのデータセットにおけるエンティティは、発音が属性値に存在し、属性値が即ちエンティティの発音である場合がある。図２はＬＯＤのデータセットにおける１つのエンティティの例を示す図である。具体的には、図２はＬＯＤのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織淳」を示している。例えば、図２に示す属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおりあつし」は即ち「錦織淳」の発音である。図３はＬＯＤのデータセットにおけるもう１つのエンティティの例を示す図である。具体的には、図３はＬＯＤのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織一清」を示している。例えば、図３に示す属性「http://xmlns.com/foaf/0.1/name」の属性値「にしきおりかずきよ」は即ち「錦織一清」の発音である。また、図３に示す属性「http://ja.dbpedia.org/property/ふりがな」の属性値「にしきおりかずきよ」も即ち「錦織一清」の発音である。しかし、異なるエンティティにおいて発音を表す属性は常に異なり、共通の属性は必ずしも発音を表すものではないため、これらの属性を選別する必要がある。

好ましくは、該少なくとも１つの第１所定属性は、ＬＯＤのデータセットにおける各エンティティの名称を取得し、該エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか１つの発音と完全に一致する属性が存在する場合、該属性を１つの候補属性として選択し、ＬＯＤのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも１つの候補属性を、少なくとも１つの第１所定属性として選択することによって取得されてもよい。

具体的には、発音を表す属性を選択するために、ＬＯＤのデータセットにおける各エンティティの名称を取得し、名称の各文字の辞書における全ての発音に基づいて、各名称の全ての可能な発音を候補発音として並べる。エンティティの候補発音と該エンティティの属性値とを１つずつ対比し、１つの候補発音がそのうち１つの属性値に一致する場合、対応する属性を候補属性として選択し、属性値が該エンティティの発音である。そして、ＬＯＤのデータセットにおける全てのエンティティについて選択された全ての候補属性について、それらの発音を表す確率を算出する。候補属性の発音を表す確率が所定閾値よりも高い場合、該候補属性を１つの第１所定属性として保留し、即ち候補属性の発音を表す確率が所定閾値よりも高い少なくとも１つの候補属性を少なくとも１つの第１所定属性として選択する。

好ましくは、候補属性の発音を表す確率は、候補属性の属性値が発音である回数と該候補属性がＬＯＤのデータセットに出現する総回数との比であってもよい。

候補属性をａで表すと、候補属性ａの発音を表す確率Ｐ（ａ）は、式（１）に示すように、候補属性ａの属性値が発音である回数と候補属性ａがＬＯＤのデータセットに出現する総回数との比である。

Ｐ（ａ）＝ａの属性値が発音である回数／ａが出現する総回数（１）
好ましくは、上記所定閾値は、当業者により経験又は実験に基づいて決定されてもよい。

本発明の実施例では、図２に示す例について、属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおりあつし」が即ち「錦織淳」の発音であると決定してもよい。

本発明の実施例では、図３に示す例について、属性「http://xmlns.com/foaf/0.1/name」の属性値「にしきおりかずきよ」が即ち「錦織一清」の発音であると決定してもよい。また、属性「http://ja.dbpedia.org/property/ふりがな」の属性値「にしきおりかずきよ」が即ち「錦織一清」の発音であると決定してもよい。

好ましくは、該少なくとも１つの属性は、属性値が少なくとも１つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも１つの第２所定属性をさらに含んでもよい。属性値が即ちエンティティの発音である場合に加え、発音が属性値に含まれ、且つ一般的に出現する位置が法則に従うものである場合はあり、この場合は、発音抽出テンプレートを用いてエンティティの発音を決定してもよい。図４はＬＯＤのデータセットにおけるもう１つのエンティティの例を示す図である。具体的には、図４はＬＯＤのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織圭」を示している。図２及び図３に示す例と異なって、図４における属性には属性値が即ちエンティティの発音である属性が含まれておらず、即ち図４における属性の属性値から「錦織圭」の発音を直接決定できない。しかし、「錦織圭」の発音は、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に含まれている。この場合は、発音抽出テンプレートを用いて図４におけるエンティティの発音を取得してもよい。

好ましくは、該少なくとも１つの発音抽出テンプレートは、ＬＯＤのデータセットにおける該少なくとも１つの第１所定属性の何れかの第１所定属性を含む各エンティティについて、該エンティティの該何れかの第１所定属性の属性値に基づいて該エンティティの発音を決定し、該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、ＬＯＤのデータセットにおける該少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて、該少なくとも１つの発音抽出テンプレートを自動的に生成することによって生成されてもよい。

ＬＯＤのデータセットでは、発音が即ちある属性の属性値であり、且つ他の属性値に存在する場合があり、言い換えれば、他の属性値にもエンティティの発音が含まれる。また、エンティティの発音が即ち属性値であることではなく、発音が属性値に含まれ、且つ該属性値に出現する位置が法則に従うものである場合がある。この場合は、発音抽出テンプレートを自動的に生成してこれらの発音のマッチングを行ってもよい。

発音抽出テンプレートを生成するために、まず、テンプレート訓練コーパスを収集する必要がある。具体的には、取得された該少なくとも１つの第１所定属性により構成された属性リストにおける各属性について、ＬＯＤのデータセットから該属性を含む全てのエンティティを検索し、該エンティティの該属性の属性値に基づいて該エンティティの発音を決定し、該エンティティについてその発音を含む他の属性値をテンプレート訓練コーパスとして検索する。例えば、図２に示すエンティティ「http://ja.dbpedia.org/resource/錦織淳」について、属性「http://ja.dbpedia.org/property/各国語表記」は即ち発音の属性であるから、このエンティティの発音が「にしこおりあつし」であることが分かり、他の属性値を検索すると、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に発音「にしこおりあつし」が含まれると発見され、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値をテンプレート訓練コーパスとする。また、図３に示すエンティティ「http://ja.dbpedia.org/resource/錦織一清」について、属性「http://xmlns.com/foaf/0.1/name」は即ち発音の属性であるから、このエンティティの発音が「にしきおりかずきよ」であることが分かり、他の属性値を検索すると、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に発音「にしきおりかずきよ」が含まれると発見され、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値をテンプレート訓練コーパスとする。

そして、発音の、エンティティの発音を含む他の属性の属性値における出現位置の法則を決定することで、発音抽出テンプレートを自動的に生成する。各訓練コーパスについて、訓練コーパスから発音文字列の前後のウィンドウ長さがＮの文字を取得し、取得されたＮ個の文字における数字及び漢字を一般化することで、発音の、該エンティティの発音を含む他の属性の属性値における出現位置を決定し、１つの候補テンプレートを生成してもよい。例えば、上述したように、図２に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値は１つのテンプレート訓練コーパスであり、該訓練コーパスについて、発音文字列を含む文字列「錦織
淳（にしこおりあつし、1945年7月30日 - ）は」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしこおりあつし」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、１つの候補テンプレートを生成してもよい。また、上述したように、図３に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値も１つのテンプレート訓練コーパスであり、該訓練コーパスについて、発音文字列を含む文字列「錦織
一清（にしきおりかずきよ、1965年5月22日 - ）」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしきおりかずきよ」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、１つの候補テンプレートを生成してもよい。説明の便宜上、以上は図２及び図３に示すエンティティを一例にして説明しているが、実際にはＬＯＤのデータセットにおける該少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて上記処理を行ってもよい。

検索された第１所定属性を含む各エンティティについて、該エンティティの発音を含む他の属性の属性値における文字を一般化し、一般化されたセンテンスの共通部分集合を抽出し、発音の、エンティティの発音を含む他の属性の属性値における出現位置を決定し、１つの候補テンプレートを生成してもよい。同様に図２及び図３を一例として、図２に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値「錦織淳（にしこおりあつし、1945年7月30日 - ）は、日本の弁護士・政治家。元衆議院議員（1期）。島根県出雲市（旧平田市）出身。」を一般化し、１つの一般化された構成を取得する。また、図３に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値「錦織一清（にしきおりかずきよ、1965年5月22日 - ）はジャニーズ事務所に所属するグループ「少年隊」のリーダー。愛称は、ファンからは「ニッキ」、メンバー内では「ニシキ」。小学校5年の時にオーディションを受け、江戸川区立平井南小学校6年の1977年7月に事務所に入所。東京都出身。少年隊のイメージカラーは赤。」を一般化し、１つの一般化された構成を取得する。そして、上記２つの一般化された構成の共通部分集合を抽出し、発音の出現位置の法則を決定し、１つの候補テンプレートを生成する。説明の便宜上、以上は図２及び図３に示すエンティティを一例にして説明しているが、実際にはＬＯＤのデータセットにおける該少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて上記処理を行ってもよい。

最後に、生成された全ての候補テンプレートを並び替え、出現回数が所定の閾値よりも大きい候補テンプレートを最終的な発音抽出テンプレートとして選択する。これによって、ＬＯＤのデータセットにおける該少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて、該少なくとも１つの発音抽出テンプレートを自動的に生成できる。

好ましくは、該少なくとも１つの第１所定属性の属性値及び該少なくとも１つの第２所定属性の属性値は文字列型の属性値であってもよい。

好ましくは、該少なくとも１つのエンティティの各エンティティについて、該エンティティのリンクされた対応エンティティの属性に該少なくとも１つの第１所定属性のうち１つの第１所定属性が含まれている場合、該１つの第１所定属性の属性値を該エンティティの発音とし、該エンティティのリンクされた対応エンティティの属性に該少なくとも１つの第１所定属性が何れも含まれていない場合、該少なくとも１つの発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。

具体的には、該エンティティのリンクされた対応エンティティの属性に何れかの第１所定属性が含まれているか否かを判断し、ある場合は、該対応エンティティは、属性値が即ち発音である属性を含み、該何れかの第１所定属性の属性値を該エンティティの発音としてもよい。多音字を含むエンティティ「錦織淳」を一例として、その対応エンティティは図２に示す「http://ja.dbpedia.org/resource/錦織淳」であり、該対応エンティティは、属性値が即ち発音である属性「http://ja.dbpedia.org/property/各国語表記」を含むため、属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおりあつし」を「錦織淳」の発音として直接取得してもよい。また、多音字を含むエンティティ「錦織一清」をもう一例として、その対応エンティティは図３に示す「http://ja.dbpedia.org/resource/錦織一清」であり、該対応エンティティは、属性値が即ち発音である属性「http://xmlns.com/foaf/0.1/name」及び「http://ja.dbpedia.org/property/ふりがな」を含むため、属性「http://xmlns.com/foaf/0.1/name」及び「http://ja.dbpedia.org/property/ふりがな」のうち何れかの属性の属性値「にしきおりかずきよ」を「錦織一清」の発音として直接取得してもよい。

該エンティティのリンクされた対応エンティティの属性に第１所定属性が何れも含まれていない場合、該対応エンティティは属性値が即ち発音である属性を含まなく、発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。図４に示すエンティティ「http://ja.dbpedia.org/resource/錦織圭」について、該対応エンティティの属性は属性値が即ち発音である属性を含まないため、発音抽出テンプレートを用いて発音を決定する必要がある。

好ましくは、該少なくとも１つの発音抽出テンプレートを用いて該少なくとも１つのエンティティのうち１つのエンティティの発音を決定するステップは、該少なくとも１つの発音抽出テンプレートを用いて、該１つのエンティティのリンクされた対応エンティティの少なくとも１つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を該１つのエンティティの発音とするステップ、を含んでもよい。

具体的には、エンティティのリンクされた対応エンティティの属性に第１所定属性が何れも含まれていない場合、発音抽出テンプレートを用いて、該対応エンティティの文字列型の属性値に対してマッチングを行い、一致した文字列を該エンティティの発音としてもよい。

多音字を含む「錦織圭」を一例として、その対応エンティティは図４に示す「http://ja.dbpedia.org/resource/錦織圭」であり、該対応エンティティの属性に第１所定属性が何れも含まれていない（即ち、該対応エンティティの属性に、属性値が即ち発音である属性が含まれていない）ため、発音抽出テンプレートを用いて発音を決定する必要がある。具体的には、上記図２及び図３に示すエンティティにおける属性値がテンプレート訓練コーパスを例にして生成された発音抽出テンプレートを用いて、エンティティ「http://ja.dbpedia.org/resource/錦織圭」における文字列型の属性値に対してマッチングを行い、例えば発音抽出テンプレートを用いて属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に対してマッチングを行う際に、一致した「にしこりけい」が取得された場合、一致した文字列「にしこりけい」をエンティティ「錦織圭」の発音としてもよい。

以上は、対応エンティティの、属性値が発音を含む少なくとも１つの属性に基づいてエンティティの発音を決定することを詳細に説明した。

また、例えばエンティティ認識ステップＳ１０２において、対応エンティティに関連する発音に基づいてエンティティの発音を決定してもよい。具体的には、対応エンティティの１つの固有の発音属性を作成し、上述したようにＬＯＤのデータセットから発音を取得した後に、取得された発音を該固有の発音属性の属性値に記憶してもよい。例えば、図２に示すエンティティ「http://ja.dbpedia.org/resource/錦織淳」について、１つの固有の発音属性を作成し、発音「にしこおりあつし」をその「発音属性」の属性値とする。図３に示すエンティティ「http://ja.dbpedia.org/resource/錦織一清」について、１つの固有の発音属性を作成し、発音「にしきおりかずきよ」をその「発音属性」の属性値とする。図４に示すエンティティ「http://ja.dbpedia.org/resource/錦織圭」について、１つの固有の発音属性を作成し、発音「にしこりけい」をその「発音属性」の属性値とする。これらの発音属性及びその属性値は、ローカルに記憶されてもよいし、ネットワーク上に発表されてもよい。このように、エンティティをＬＯＤのデータセットにおける対応エンティティにリンクした後に、対応エンティティの「発音属性」の属性値を検索することで、エンティティの発音を取得できる。例えば、入力されたテキストからエンティティ「錦織淳」を認識し、該エンティティをＬＯＤのデータセットにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織淳」にリンクした後に、該対応エンティティの「発音属性」の属性値を検索することで、「錦織淳」の発音「にしこおりあつし」を取得できる。また、入力されたテキストからエンティティ「錦織圭」を認識し、該エンティティをＬＯＤのデータセットにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織圭」にリンクした後に、該対応エンティティの「発音属性」の属性値を検索することで、「錦織圭」の発音「にしこりけい」を取得できる。

上述したように、本発明の実施例のエンティティの多音字の曖昧さ回避方法によれば、発音を決定しようとするエンティティの多音字をＬＯＤの対応エンティティにリンクし、該対応エンティティの関連属性値から発音を取得する。ＬＯＤにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがなく、エンティティの多音字の発音に対して曖昧さ回避を行うことができる。

本発明は、上記方法の実施例に対応する装置の実施例をさらに提供する。

図５は本発明の実施例のエンティティの多音字の曖昧さ回避装置５００の機能的構成の例を示すブロック図である。

図５に示すように、本発明の実施例のエンティティの多音字の曖昧さ回避装置５００は、エンティティ認識部５０２及び発音決定部５０４を含んでもよい。以下は、各部の機能的構成例を説明する。

エンティティ認識部５０２は、入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識してもよい。

入力されたテキストから多音字を含むエンティティの具体的な認識方法は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。

発音決定部５０４は、該少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は対応エンティティに関連する発音に基づいて、該エンティティの発音を決定してもよい。

エンティティ認識部５０２により認識されたエンティティについて、エンティティリンク技術を用いて、これらのエンティティをＬＯＤのデータセットにおける対応エンティティにリンクしてもよい。該対応エンティティの属性値が発音を含む少なくとも１つの属性及び／又は該対応エンティティに関連する発音に基づいて、発音を決定してもよい。ＬＯＤにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがない。

好ましくは、該少なくとも１つの属性は、属性値が即ち発音である少なくとも１つの第１所定属性を含んでもよい。ＬＯＤのデータセットにおけるエンティティは、発音が属性値に存在し、属性値が即ちエンティティの発音である場合がある。しかし、異なるエンティティにおいて発音を表す属性は常に異なり、共通の属性は必ずしも発音を表すものではないため、これらの属性を選別する必要がある。

好ましくは、上記所定閾値は、当業者により経験又は実験に基づいて決定されてもよい。

少なくとも１つの第１所定属性の取得方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。

好ましくは、該少なくとも１つの属性は、属性値が少なくとも１つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも１つの第２所定属性をさらに含んでもよい。属性値が即ちエンティティの発音である場合に加え、発音が属性値に含まれ、且つ一般的に出現する位置が法則に従うものである場合はあり、この場合は、発音抽出テンプレートを用いてエンティティの発音を決定してもよい。

発音抽出テンプレートの具体的な生成方法は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。

具体的には、該エンティティのリンクされた対応エンティティの属性に何れかの第１所定属性が含まれているか否かを判断し、ある場合は、該対応エンティティは、属性値が即ち発音である属性を含み、該何れかの第１所定属性の属性値を該エンティティの発音としてもよい。該エンティティのリンクされた対応エンティティの属性に第１所定属性が何れも含まれていない場合、該対応エンティティは属性値が即ち発音である属性を含まなく、発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。

エンティティのリンクされた対応エンティティの属性に基づいてエンティティの発音を取得する方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。

また、例えばエンティティ認識部５０２は、対応エンティティに関連する発音に基づいてエンティティの発音を決定してもよい。具体的には、対応エンティティの１つの固有の発音属性を作成し、上述したようにＬＯＤのデータセットから発音を取得した後に、取得された発音を該固有の発音属性の属性値に記憶してもよい。入力されたテキストから多音字のエンティティを認識した場合、該エンティティをＬＯＤのデータセットにおける対応エンティティにリンクした後に、対応エンティティの「発音属性」の属性値を検索することで、該多音字のエンティティの発音を取得できる。

対応エンティティの関連発音に基づくエンティティの発音の決定方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。

上述したように、本発明の実施例のエンティティの多音字の曖昧さ回避装置によれば、発音を決定しようとするエンティティの多音字をＬＯＤの対応エンティティにリンクし、該対応エンティティの関連属性値から発音を取得する。ＬＯＤにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがなく、エンティティの多音字の発音に対して曖昧さ回避を行うことができる。

なお、以上は本発明の実施例のエンティティの多音字の曖昧さ回避装置の機能的構成を説明しているが、これは単なる一例であり、本発明を限定するものではなく、当業者が本発明の原理に基づいて上記実施例を変更し、例えば各実施例における機能的モジュールを追加、削除、或いは組み合わせてもよく、これらの変更は本発明の範囲内に入るものである。

なお、ここの装置の実施例は上記方法の実施例に対応するものであるため、装置の実施例において詳細に説明されていない内容は方法の実施例の対応部分の説明を参照してもよく、ここでその説明を省略する。

なお、本発明の実施例の記憶媒体及びプログラムプロダクトの機器において実行される指令は、上記エンティティの多音字の曖昧さ回避方法を実行するように構成されてもよいため、ここで詳細に説明されていない内容は上記の対応部分の説明を参照してもよく、ここでその説明を省略する。

それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。

なお、上記装置における各構成要件、ユニットはソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。用いられる具体的な手段又は方式の構成は当業者にとって周知であり、ここでその説明が省略される。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図６示されている汎用パーソナルコンピュータ６００に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。

図６において、中央処理部（即ちＣＰＵ）６０１は、読み出し専用メモリ（ＲＯＭ）６０２に記憶されているプログラム、又は記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムにより各種の処理を実行する。ＲＡＭ６０３には、必要に応じて、ＣＰＵ６０１が各種の処理を実行するに必要なデータが記憶されている。

ＣＰＵ６０１、ＲＯＭ６０２、及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入力／出力インターフェース６０５もバス６０４に接続されている。

入力部６０６（キーボード、マウスなどを含む）、出力部６０７（ディスプレイ、例えばブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）など、及びスピーカなどを含む）、記憶部６０８（例えばハードディスクなどを含む）、通信部６０９（例えばネットワークのインタフェースカード、例えばＬＡＮカード、モデムなどを含む）は、入力／出力インターフェース６０５に接続されている。通信部６０９は、ネットワーク、例えばインターネットを介して通信処理を実行する。

必要に応じて、ドライブ部６１０は、入力／出力インターフェース６０５に接続されてもよい。取り外し可能な媒体６１１は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部６１０にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部６０８にインストールされている。

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体６１１を介してソフトウェアを構成するプログラムをインストールする。

なお、これらの記憶媒体は、図６に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体６１１に限定されない。取り外し可能な媒体６１１は、例えば磁気ディスク（フロッピーディスク（登録商標）を含む）、光ディスク（光ディスク−読み出し専用メモリ（ＣＤＲＯＭ）、及びデジタル多目的ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））及び半導体メモリを含む。或いは、記憶媒体は、ＲＯＭ６０２、記憶部６０８に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

以上は本発明の具体的な実施例の説明を通じて本発明を開示するが、上記の全ての実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。

例えば、上記の実施例の１つのユニットに含まれる複数の機能はそれぞれの装置により実現されてもよい。又は、上記の実施例の複数のユニットに含まれる複数の機能はそれぞれの装置によりそれぞれ実現されてもよい。また、上記の機能の１つは複数のユニットにより実現されてもよい。なお、このような構成は本発明の技術的範囲内に含まれる。

また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識ステップと、
前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法。
（付記２）
前記少なくとも１つの属性は、属性値が即ち発音である少なくとも１つの第１所定属性を含む、付記１に記載のエンティティの多音字の曖昧さ回避方法。
（付記３）
前記少なくとも１つの属性は、属性値が少なくとも１つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも１つの第２所定属性をさらに含む、付記２に記載のエンティティの多音字の曖昧さ回避方法。
（付記４）
前記少なくとも１つの第１所定属性は、
前記ＬＯＤのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか１つの発音と完全に一致する属性が存在する場合、該属性を１つの候補属性として選択し、
前記ＬＯＤのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも１つの候補属性を、前記少なくとも１つの第１所定属性として選択することによって取得される、付記２に記載のエンティティの多音字の曖昧さ回避方法。
（付記５）
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記ＬＯＤのデータセットに出現する総回数との比である、付記４に記載のエンティティの多音字の曖昧さ回避方法。
（付記６）
前記少なくとも１つの発音抽出テンプレートは、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む各エンティティについて、該エンティティの前記何れかの第１所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて、前記少なくとも１つの発音抽出テンプレートを自動的に生成することによって生成される、付記３に記載のエンティティの多音字の曖昧さ回避方法。
（付記７）
前記少なくとも１つの第１所定属性の属性値及び前記少なくとも１つの第２所定属性の属性値は文字列型の属性値である、付記３に記載のエンティティの多音字の曖昧さ回避方法。
（付記８）
前記少なくとも１つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性のうち１つの第１所定属性が含まれている場合、前記１つの第１所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性が何れも含まれていない場合、前記少なくとも１つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記３に記載のエンティティの多音字の曖昧さ回避方法。
（付記９）
前記少なくとも１つの発音抽出テンプレートを用いて前記少なくとも１つのエンティティのうち１つのエンティティの発音を決定するステップは、
前記少なくとも１つの発音抽出テンプレートを用いて、前記１つのエンティティのリンクされた対応エンティティの少なくとも１つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記１つのエンティティの発音とするステップ、を含む、付記８に記載のエンティティの多音字の曖昧さ回避方法。
（付記１０）
入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識手段と、
前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置。
（付記１１）
前記少なくとも１つの属性は、属性値が即ち発音である少なくとも１つの第１所定属性を含む、付記１０に記載のエンティティの多音字の曖昧さ回避装置。
（付記１２）
前記少なくとも１つの属性は、属性値が少なくとも１つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも１つの第２所定属性をさらに含む、付記１１に記載のエンティティの多音字の曖昧さ回避装置。
（付記１３）
前記少なくとも１つの第１所定属性は、
前記ＬＯＤのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか１つの発音と完全に一致する属性が存在する場合、該属性を１つの候補属性として選択し、
前記ＬＯＤのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも１つの候補属性を、前記少なくとも１つの第１所定属性として選択することによって取得される、付記１１に記載のエンティティの多音字の曖昧さ回避装置。
（付記１４）
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記ＬＯＤのデータセットに出現する総回数との比である、付記１３に記載のエンティティの多音字の曖昧さ回避装置。
（付記１５）
前記少なくとも１つの発音抽出テンプレートは、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む各エンティティについて、該エンティティの前記何れかの第１所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて、前記少なくとも１つの発音抽出テンプレートを自動的に生成することによって生成される、付記１２に記載のエンティティの多音字の曖昧さ回避装置。
（付記１６）
前記少なくとも１つの第１所定属性の属性値及び前記少なくとも１つの第２所定属性の属性値は文字列型の属性値である、付記１２に記載のエンティティの多音字の曖昧さ回避装置。
（付記１７）
前記少なくとも１つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性のうち１つの第１所定属性が含まれている場合、前記１つの第１所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性が何れも含まれていない場合、前記少なくとも１つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記１２に記載のエンティティの多音字の曖昧さ回避装置。
（付記１８）
前記少なくとも１つの発音抽出テンプレートを用いて前記少なくとも１つのエンティティのうち１つのエンティティの発音を決定するステップは、
前記少なくとも１つの発音抽出テンプレートを用いて、前記１つのエンティティのリンクされた対応エンティティの少なくとも１つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記１つのエンティティの発音とするステップ、を含む、付記１７に記載のエンティティの多音字の曖昧さ回避装置。

Claims

入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識ステップと、
前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの属性は、属性値が即ち発音である少なくとも１つの第１所定属性を含む、請求項１に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの属性は、属性値が少なくとも１つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも１つの第２所定属性をさらに含む、請求項２に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの第１所定属性は、
前記ＬＯＤのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか１つの発音と完全に一致する属性が存在する場合、該属性を１つの候補属性として選択し、
前記ＬＯＤのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも１つの候補属性を、前記少なくとも１つの第１所定属性として選択することによって取得される、請求項２に記載のエンティティの多音字の曖昧さ回避方法。
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記ＬＯＤのデータセットに出現する総回数との比である、請求項４に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの発音抽出テンプレートは、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む各エンティティについて、該エンティティの前記何れかの第１所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記ＬＯＤのデータセットにおける前記少なくとも１つの第１所定属性の何れかの第１所定属性を含む全てのエンティティに基づいて、前記少なくとも１つの発音抽出テンプレートを自動的に生成することによって生成される、請求項３に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの第１所定属性の属性値及び前記少なくとも１つの第２所定属性の属性値は文字列型の属性値である、請求項３に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性のうち１つの第１所定属性が含まれている場合、前記１つの第１所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも１つの第１所定属性が何れも含まれていない場合、前記少なくとも１つの発音抽出テンプレートを用いて該エンティティの発音を決定する、請求項３に記載のエンティティの多音字の曖昧さ回避方法。
前記少なくとも１つの発音抽出テンプレートを用いて前記少なくとも１つのエンティティのうち１つのエンティティの発音を決定するステップは、
前記少なくとも１つの発音抽出テンプレートを用いて、前記１つのエンティティのリンクされた対応エンティティの少なくとも１つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記１つのエンティティの発音とするステップ、を含む、請求項８に記載のエンティティの多音字の曖昧さ回避方法。
入力されたテキストから、多音字を含む少なくとも１つのエンティティを認識するエンティティ認識手段と、
前記少なくとも１つのエンティティの各エンティティについて、該エンティティをＬＯＤ（リンクト・オープン・データ）のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも１つの属性及び／又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置。