JP2017208097A - エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 - Google Patents
エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 Download PDFInfo
- Publication number
- JP2017208097A JP2017208097A JP2017100185A JP2017100185A JP2017208097A JP 2017208097 A JP2017208097 A JP 2017208097A JP 2017100185 A JP2017100185 A JP 2017100185A JP 2017100185 A JP2017100185 A JP 2017100185A JP 2017208097 A JP2017208097 A JP 2017208097A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- attribute
- pronunciation
- predetermined
- attribute value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【課題】エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避方法及び回避装置を提供する。【解決手段】エンティティの多音字の曖昧さ回避方法は、入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識ステップS102と、該少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、該対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は該対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップS104とを含む。【選択図】図1
Description
本発明は、情報処理の分野に関し、具体的には、LOD(Linked Open Data:リンクト・オープン・データ)からエンティティの発音を取得でき、エンティティの多音字の発音に対して曖昧さ回避を行うことができるエンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置に関する。
TTS(Text To Speech:テキスト読み上げ)技術は、テキスト変換技術とも称され、現在の音声合成の代表的な内容であり、コンピュータを用いて任意のテキストを音声に変換する技術を指す。入力されたテキストを対応する発音に変換する必要があるため、多音字の曖昧さ回避はテキスト変換の重要なテーマである。多音字の変換の正確さは、ユーザの合成音声に対する理解状況に大きな影響を及ぼす。多音字の曖昧さ回避の正確率が高いと、合成された音声はユーザにより理解されやすく、よりスムーズなものと聞こえる。
中国語又は日本語に大量の多音字が存在するため、多音字の発音の決定方法は中国語又は日本語の音声合成分野における重要に解決する必要がある課題となっている。従来は、多音字の曖昧さ回避は主に2つの種類を含み、1つは法則を手動的に纏めて定める方法であり、もう1つは機械学習の方法を用いて多音字の曖昧さ回避を行うことである。そのうち、手動により法則を纏める方法は、人の手間がかかり、多音字の発音に法則がない場合はあり、人間もその発音を判断できない。例えば、日本語では、同一の漢字は人の名前によって発音も異なる場合がある。機械学習の方法では、一般的に、大量の手動的にラベリングするコーパスが必要となるため、同様に時間や手間がかかってしまう。
リンクト・データ(Linked Data)は、Webを用いて異なるデータソースの間で意味的関連性を作成する一連の最適な実務方法である。リンクト・データはユニークなリソース識別子(URI)を用いてリソース(エンティティとして理解されてもよい)をラベリングするため、各エンティティは一義性を有し、トリプルの形で各リソースメタデータ、即ち関連する属性及び属性値を提供する。リンクト・データを開発してインターネット上に公表するものはリンクト・オープン・データ(LOD:Linked Open Data)と称され、通常の大規模のLODのデータセットはDBpedia、Freebase等を含む。例えば、DBpediaはWikipediaの構造化されたデータセットであり、あるエンティティのWikipediaのページを編集する場合は、常にその発音を同時に提供するが、固定の方式で提供することではない。LODでは、一部のリソースに発音のような属性が存在し、且つ各リソースはユニークな識別子を有するため、LODを用いて多音字のリソースに対して曖昧さ回避を行うことが検討されている。
以下は、本発明の態様を基本的に理解させるために、本発明の簡単な概要を説明する。なお、この簡単な概要は、本発明を網羅的な概要ではなく、本発明のポイント又は重要な部分を意図的に特定するものではなく、本発明の範囲を意図的に限定するものではなく、後述するより詳細的な説明の前文として、単なる概念を簡単な形で説明することを目的とする。
上記の問題点を鑑み、本発明は、LODからエンティティの発音をエンティティの発音の曖昧さ回避の結果として取得でき、エンティティの多音字の発音に対して曖昧さ回避を行うことができるエンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置を提供することを目的とする。
本発明の1つの態様では、入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識ステップと、前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法を提供する。
本発明のもう1つの態様では、入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識手段と、前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置を提供する。
本発明の他の態様では、上記本発明の態様の方法を実現するためのコンピュータプログラムコード及びコンピュータプログラムプロダクト、並びに上記本発明の態様の方法を実現するためのコンピュータプログラムコードを記録したコンピュータ読み取り可能な記憶媒体をさらに提供する。
以下の発明な詳細の部分において本発明の実施例の他の態様を説明し、そのうち、本発明の実施例を十分に公開する好ましい実施例を詳細に説明し、本発明はこれらの実施例に限定されない。
本発明の上記及び他の目的、特徴及び利点をより明確にするように、以下は図面を参照しながら本発明の実施例を説明する。図面における各部は、単なる本発明の原理を示すためのものである。図面では、同一又は類似の技術的特徴又は構成部について同一又は類似の符号で示される。
本発明の実施例のエンティティの多音字の曖昧さ回避方法の例を示すフローチャートである。
LODのデータセットにおけるエンティティの1つの例を示す図である。
LODのデータセットにおけるエンティティのもう1つの例を示す図である。
LODのデータセットにおけるエンティティのもう1つの例を示す図である。
本発明の実施例のエンティティの多音字の曖昧さ回避装置の機能的構成の例を示すブロック図である。
本発明の実施例に適用可能な情報処理装置となるパーソナルコンピュータの例示的な構成を示すブロック図である。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。
なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件及び/又は処理のステップのみが示され、本発明と関係のない細部が省略される。
以下は図面を参照しながら本発明の実施例を詳細に説明する。
まず、図1を参照しながら本発明の実施例のエンティティの多音字の曖昧さ回避方法の一例を説明する。図1は本発明の実施例のエンティティの多音字の曖昧さ回避方法の例を示すフローチャートである。図1に示すように、本発明の実施例のエンティティの多音字の曖昧さ回避方法は、エンティティ認識ステップS102及び発音決定ステップS104を含んでもよい。
まず、エンティティ認識ステップS102において、入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識してもよい。
具体的には、エンティティ認識ステップS102において、命名エンティティ認識技術を用いて入力テキストにおけるエンティティを認識してもよい。なお、これは単なる一例であり、本発明を限定するものではなく、当業者は他の技術を用いて入力テキストにおけるエンティティを認識してもよい。例えば、日本語のセンテンス「世界最強の選手が集うATPツアー・ファイナルに錦織圭(日清食品)が初出場」において、人名「錦織圭」及び機関名「日清食品」を認識してもよく、ここで、「錦織圭」は多音字「錦織」を含むエンティティである。
発音決定ステップS104において、該少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は対応エンティティに関連する発音に基づいて、該エンティティの発音を決定してもよい。
本実施例では、LODのデータセットはDBpediaであるが、これは単なる一例であり、本発明を限定するものではない。また、LODのデータセットはFreebase等であってもよい。
エンティティ認識ステップS102において認識された「錦織圭」及び「日清食品」について、エンティティリンク技術を用いてこれらのエンティティをLODのデータセットにおける対応エンティティにそれぞれリンクしてもよい。例えば、「錦織圭」をDBpediaにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織圭」にリンクし、対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は該対応エンティティに関連する発音に基づいて、エンティティ「錦織圭」の発音を決定してもよい。また、「日清食品」をDBpediaにおける対応エンティティ「http://ja.dbpedia.org/resource/日清食品」にリンクし、対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は該対応エンティティに関連する発音に基づいて、エンティティ「日清食品」の発音を決定してもよい。LODにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがない。
好ましくは、該少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含んでもよい。LODのデータセットにおけるエンティティは、発音が属性値に存在し、属性値が即ちエンティティの発音である場合がある。図2はLODのデータセットにおける1つのエンティティの例を示す図である。具体的には、図2はLODのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織淳」を示している。例えば、図2に示す属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおり あつし」は即ち「錦織淳」の発音である。図3はLODのデータセットにおけるもう1つのエンティティの例を示す図である。具体的には、図3はLODのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織一清」を示している。例えば、図3に示す属性「http://xmlns.com/foaf/0.1/name」の属性値「にしきおり かずきよ」は即ち「錦織一清」の発音である。また、図3に示す属性「http://ja.dbpedia.org/property/ふりがな」の属性値「にしきおり かずきよ」も即ち「錦織一清」の発音である。しかし、異なるエンティティにおいて発音を表す属性は常に異なり、共通の属性は必ずしも発音を表すものではないため、これらの属性を選別する必要がある。
好ましくは、該少なくとも1つの第1所定属性は、LODのデータセットにおける各エンティティの名称を取得し、該エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、少なくとも1つの第1所定属性として選択することによって取得されてもよい。
具体的には、発音を表す属性を選択するために、LODのデータセットにおける各エンティティの名称を取得し、名称の各文字の辞書における全ての発音に基づいて、各名称の全ての可能な発音を候補発音として並べる。エンティティの候補発音と該エンティティの属性値とを1つずつ対比し、1つの候補発音がそのうち1つの属性値に一致する場合、対応する属性を候補属性として選択し、属性値が該エンティティの発音である。そして、LODのデータセットにおける全てのエンティティについて選択された全ての候補属性について、それらの発音を表す確率を算出する。候補属性の発音を表す確率が所定閾値よりも高い場合、該候補属性を1つの第1所定属性として保留し、即ち候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を少なくとも1つの第1所定属性として選択する。
好ましくは、候補属性の発音を表す確率は、候補属性の属性値が発音である回数と該候補属性がLODのデータセットに出現する総回数との比であってもよい。
候補属性をaで表すと、候補属性aの発音を表す確率P(a)は、式(1)に示すように、候補属性aの属性値が発音である回数と候補属性aがLODのデータセットに出現する総回数との比である。
P(a)=aの属性値が発音である回数/aが出現する総回数 (1)
好ましくは、上記所定閾値は、当業者により経験又は実験に基づいて決定されてもよい。
好ましくは、上記所定閾値は、当業者により経験又は実験に基づいて決定されてもよい。
本発明の実施例では、図2に示す例について、属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおり あつし」が即ち「錦織淳」の発音であると決定してもよい。
本発明の実施例では、図3に示す例について、属性「http://xmlns.com/foaf/0.1/name」の属性値「にしきおり かずきよ」が即ち「錦織一清」の発音であると決定してもよい。また、属性「http://ja.dbpedia.org/property/ふりがな」の属性値「にしきおり かずきよ」が即ち「錦織一清」の発音であると決定してもよい。
好ましくは、該少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含んでもよい。属性値が即ちエンティティの発音である場合に加え、発音が属性値に含まれ、且つ一般的に出現する位置が法則に従うものである場合はあり、この場合は、発音抽出テンプレートを用いてエンティティの発音を決定してもよい。図4はLODのデータセットにおけるもう1つのエンティティの例を示す図である。具体的には、図4はLODのデータセットにおけるエンティティ「http://ja.dbpedia.org/resource/錦織圭」を示している。図2及び図3に示す例と異なって、図4における属性には属性値が即ちエンティティの発音である属性が含まれておらず、即ち図4における属性の属性値から「錦織圭」の発音を直接決定できない。しかし、「錦織圭」の発音は、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に含まれている。この場合は、発音抽出テンプレートを用いて図4におけるエンティティの発音を取得してもよい。
好ましくは、該少なくとも1つの発音抽出テンプレートは、LODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの該何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、LODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、該少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成されてもよい。
LODのデータセットでは、発音が即ちある属性の属性値であり、且つ他の属性値に存在する場合があり、言い換えれば、他の属性値にもエンティティの発音が含まれる。また、エンティティの発音が即ち属性値であることではなく、発音が属性値に含まれ、且つ該属性値に出現する位置が法則に従うものである場合がある。この場合は、発音抽出テンプレートを自動的に生成してこれらの発音のマッチングを行ってもよい。
発音抽出テンプレートを生成するために、まず、テンプレート訓練コーパスを収集する必要がある。具体的には、取得された該少なくとも1つの第1所定属性により構成された属性リストにおける各属性について、LODのデータセットから該属性を含む全てのエンティティを検索し、該エンティティの該属性の属性値に基づいて該エンティティの発音を決定し、該エンティティについてその発音を含む他の属性値をテンプレート訓練コーパスとして検索する。例えば、図2に示すエンティティ「http://ja.dbpedia.org/resource/錦織淳」について、属性「http://ja.dbpedia.org/property/各国語表記」は即ち発音の属性であるから、このエンティティの発音が「にしこおり あつし」であることが分かり、他の属性値を検索すると、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に発音「にしこおり あつし」が含まれると発見され、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値をテンプレート訓練コーパスとする。また、図3に示すエンティティ「http://ja.dbpedia.org/resource/錦織一清」について、属性「http://xmlns.com/foaf/0.1/name」は即ち発音の属性であるから、このエンティティの発音が「にしきおり かずきよ」であることが分かり、他の属性値を検索すると、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に発音「にしきおり かずきよ」が含まれると発見され、属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値をテンプレート訓練コーパスとする。
そして、発音の、エンティティの発音を含む他の属性の属性値における出現位置の法則を決定することで、発音抽出テンプレートを自動的に生成する。各訓練コーパスについて、訓練コーパスから発音文字列の前後のウィンドウ長さがNの文字を取得し、取得されたN個の文字における数字及び漢字を一般化することで、発音の、該エンティティの発音を含む他の属性の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。例えば、上述したように、図2に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値は1つのテンプレート訓練コーパスであり、該訓練コーパスについて、発音文字列を含む文字列「錦織
淳(にしこおり あつし、1945年7月30日 - )は」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしこおり あつし」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。また、上述したように、図3に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値も1つのテンプレート訓練コーパスであり、該訓練コーパスについて、発音文字列を含む文字列「錦織
一清(にしきおり かずきよ、1965年5月22日 - )」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしきおり かずきよ」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。説明の便宜上、以上は図2及び図3に示すエンティティを一例にして説明しているが、実際にはLODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて上記処理を行ってもよい。
淳(にしこおり あつし、1945年7月30日 - )は」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしこおり あつし」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。また、上述したように、図3に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値も1つのテンプレート訓練コーパスであり、該訓練コーパスについて、発音文字列を含む文字列「錦織
一清(にしきおり かずきよ、1965年5月22日 - )」を取得し、取得された文字列における数字及び漢字を一般化することで、発音「にしきおり かずきよ」の属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。説明の便宜上、以上は図2及び図3に示すエンティティを一例にして説明しているが、実際にはLODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて上記処理を行ってもよい。
検索された第1所定属性を含む各エンティティについて、該エンティティの発音を含む他の属性の属性値における文字を一般化し、一般化されたセンテンスの共通部分集合を抽出し、発音の、エンティティの発音を含む他の属性の属性値における出現位置を決定し、1つの候補テンプレートを生成してもよい。同様に図2及び図3を一例として、図2に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値「錦織 淳(にしこおり あつし、1945年7月30日 - )は、日本の弁護士・政治家。元衆議院議員(1期)。島根県出雲市(旧平田市)出身。」を一般化し、1つの一般化された構成を取得する。また、図3に示す属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値「錦織 一清(にしきおり かずきよ、1965年5月22日 - )はジャニーズ事務所に所属するグループ「少年隊」のリーダー。愛称は、ファンからは「ニッキ」、メンバー内では「ニシキ」。小学校5年の時にオーディションを受け、江戸川区立平井南小学校6年の1977年7月に事務所に入所。東京都出身。少年隊のイメージカラーは赤。」を一般化し、1つの一般化された構成を取得する。そして、上記2つの一般化された構成の共通部分集合を抽出し、発音の出現位置の法則を決定し、1つの候補テンプレートを生成する。説明の便宜上、以上は図2及び図3に示すエンティティを一例にして説明しているが、実際にはLODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて上記処理を行ってもよい。
最後に、生成された全ての候補テンプレートを並び替え、出現回数が所定の閾値よりも大きい候補テンプレートを最終的な発音抽出テンプレートとして選択する。これによって、LODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、該少なくとも1つの発音抽出テンプレートを自動的に生成できる。
好ましくは、該少なくとも1つの第1所定属性の属性値及び該少なくとも1つの第2所定属性の属性値は文字列型の属性値であってもよい。
好ましくは、該少なくとも1つのエンティティの各エンティティについて、該エンティティのリンクされた対応エンティティの属性に該少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、該1つの第1所定属性の属性値を該エンティティの発音とし、該エンティティのリンクされた対応エンティティの属性に該少なくとも1つの第1所定属性が何れも含まれていない場合、該少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。
具体的には、該エンティティのリンクされた対応エンティティの属性に何れかの第1所定属性が含まれているか否かを判断し、ある場合は、該対応エンティティは、属性値が即ち発音である属性を含み、該何れかの第1所定属性の属性値を該エンティティの発音としてもよい。多音字を含むエンティティ「錦織淳」を一例として、その対応エンティティは図2に示す「http://ja.dbpedia.org/resource/錦織淳」であり、該対応エンティティは、属性値が即ち発音である属性「http://ja.dbpedia.org/property/各国語表記」を含むため、属性「http://ja.dbpedia.org/property/各国語表記」の属性値「にしこおり あつし」を「錦織淳」の発音として直接取得してもよい。また、多音字を含むエンティティ「錦織一清」をもう一例として、その対応エンティティは図3に示す「http://ja.dbpedia.org/resource/錦織一清」であり、該対応エンティティは、属性値が即ち発音である属性「http://xmlns.com/foaf/0.1/name」及び「http://ja.dbpedia.org/property/ふりがな」を含むため、属性「http://xmlns.com/foaf/0.1/name」及び「http://ja.dbpedia.org/property/ふりがな」のうち何れかの属性の属性値「にしきおり かずきよ」を「錦織一清」の発音として直接取得してもよい。
該エンティティのリンクされた対応エンティティの属性に第1所定属性が何れも含まれていない場合、該対応エンティティは属性値が即ち発音である属性を含まなく、発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。図4に示すエンティティ「http://ja.dbpedia.org/resource/錦織圭」について、該対応エンティティの属性は属性値が即ち発音である属性を含まないため、発音抽出テンプレートを用いて発音を決定する必要がある。
好ましくは、該少なくとも1つの発音抽出テンプレートを用いて該少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、該少なくとも1つの発音抽出テンプレートを用いて、該1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を該1つのエンティティの発音とするステップ、を含んでもよい。
具体的には、エンティティのリンクされた対応エンティティの属性に第1所定属性が何れも含まれていない場合、発音抽出テンプレートを用いて、該対応エンティティの文字列型の属性値に対してマッチングを行い、一致した文字列を該エンティティの発音としてもよい。
多音字を含む「錦織圭」を一例として、その対応エンティティは図4に示す「http://ja.dbpedia.org/resource/錦織圭」であり、該対応エンティティの属性に第1所定属性が何れも含まれていない(即ち、該対応エンティティの属性に、属性値が即ち発音である属性が含まれていない)ため、発音抽出テンプレートを用いて発音を決定する必要がある。具体的には、上記図2及び図3に示すエンティティにおける属性値がテンプレート訓練コーパスを例にして生成された発音抽出テンプレートを用いて、エンティティ「http://ja.dbpedia.org/resource/錦織圭」における文字列型の属性値に対してマッチングを行い、例えば発音抽出テンプレートを用いて属性「http://www.w3.org/2000/01/rdf-schema#comment」の属性値に対してマッチングを行う際に、一致した「にしこり けい」が取得された場合、一致した文字列「にしこり けい」をエンティティ「錦織圭」の発音としてもよい。
以上は、対応エンティティの、属性値が発音を含む少なくとも1つの属性に基づいてエンティティの発音を決定することを詳細に説明した。
また、例えばエンティティ認識ステップS102において、対応エンティティに関連する発音に基づいてエンティティの発音を決定してもよい。具体的には、対応エンティティの1つの固有の発音属性を作成し、上述したようにLODのデータセットから発音を取得した後に、取得された発音を該固有の発音属性の属性値に記憶してもよい。例えば、図2に示すエンティティ「http://ja.dbpedia.org/resource/錦織淳」について、1つの固有の発音属性を作成し、発音「にしこおり あつし」をその「発音属性」の属性値とする。図3に示すエンティティ「http://ja.dbpedia.org/resource/錦織一清」について、1つの固有の発音属性を作成し、発音「にしきおり かずきよ」をその「発音属性」の属性値とする。図4に示すエンティティ「http://ja.dbpedia.org/resource/錦織圭」について、1つの固有の発音属性を作成し、発音「にしこり けい」をその「発音属性」の属性値とする。これらの発音属性及びその属性値は、ローカルに記憶されてもよいし、ネットワーク上に発表されてもよい。このように、エンティティをLODのデータセットにおける対応エンティティにリンクした後に、対応エンティティの「発音属性」の属性値を検索することで、エンティティの発音を取得できる。例えば、入力されたテキストからエンティティ「錦織淳」を認識し、該エンティティをLODのデータセットにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織淳」にリンクした後に、該対応エンティティの「発音属性」の属性値を検索することで、「錦織淳」の発音「にしこおり あつし」を取得できる。また、入力されたテキストからエンティティ「錦織圭」を認識し、該エンティティをLODのデータセットにおける対応エンティティ「http://ja.dbpedia.org/resource/錦織圭」にリンクした後に、該対応エンティティの「発音属性」の属性値を検索することで、「錦織圭」の発音「にしこり けい」を取得できる。
上述したように、本発明の実施例のエンティティの多音字の曖昧さ回避方法によれば、発音を決定しようとするエンティティの多音字をLODの対応エンティティにリンクし、該対応エンティティの関連属性値から発音を取得する。LODにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがなく、エンティティの多音字の発音に対して曖昧さ回避を行うことができる。
本発明は、上記方法の実施例に対応する装置の実施例をさらに提供する。
図5は本発明の実施例のエンティティの多音字の曖昧さ回避装置500の機能的構成の例を示すブロック図である。
図5に示すように、本発明の実施例のエンティティの多音字の曖昧さ回避装置500は、エンティティ認識部502及び発音決定部504を含んでもよい。以下は、各部の機能的構成例を説明する。
エンティティ認識部502は、入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識してもよい。
入力されたテキストから多音字を含むエンティティの具体的な認識方法は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。
発音決定部504は、該少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は対応エンティティに関連する発音に基づいて、該エンティティの発音を決定してもよい。
エンティティ認識部502により認識されたエンティティについて、エンティティリンク技術を用いて、これらのエンティティをLODのデータセットにおける対応エンティティにリンクしてもよい。該対応エンティティの属性値が発音を含む少なくとも1つの属性及び/又は該対応エンティティに関連する発音に基づいて、発音を決定してもよい。LODにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがない。
好ましくは、該少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含んでもよい。LODのデータセットにおけるエンティティは、発音が属性値に存在し、属性値が即ちエンティティの発音である場合がある。しかし、異なるエンティティにおいて発音を表す属性は常に異なり、共通の属性は必ずしも発音を表すものではないため、これらの属性を選別する必要がある。
好ましくは、該少なくとも1つの第1所定属性は、LODのデータセットにおける各エンティティの名称を取得し、該エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、少なくとも1つの第1所定属性として選択することによって取得されてもよい。
具体的には、発音を表す属性を選択するために、LODのデータセットにおける各エンティティの名称を取得し、名称の各文字の辞書における全ての発音に基づいて、各名称の全ての可能な発音を候補発音として並べる。エンティティの候補発音と該エンティティの属性値とを1つずつ対比し、1つの候補発音がそのうち1つの属性値に一致する場合、対応する属性を候補属性として選択し、属性値が該エンティティの発音である。そして、LODのデータセットにおける全てのエンティティについて選択された全ての候補属性について、それらの発音を表す確率を算出する。候補属性の発音を表す確率が所定閾値よりも高い場合、該候補属性を1つの第1所定属性として保留し、即ち候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を少なくとも1つの第1所定属性として選択する。
好ましくは、候補属性の発音を表す確率は、候補属性の属性値が発音である回数と該候補属性がLODのデータセットに出現する総回数との比であってもよい。
好ましくは、上記所定閾値は、当業者により経験又は実験に基づいて決定されてもよい。
少なくとも1つの第1所定属性の取得方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。
好ましくは、該少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含んでもよい。属性値が即ちエンティティの発音である場合に加え、発音が属性値に含まれ、且つ一般的に出現する位置が法則に従うものである場合はあり、この場合は、発音抽出テンプレートを用いてエンティティの発音を決定してもよい。
好ましくは、該少なくとも1つの発音抽出テンプレートは、LODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの該何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、LODのデータセットにおける該少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、該少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成されてもよい。
LODのデータセットでは、発音が即ちある属性の属性値であり、且つ他の属性値に存在する場合があり、言い換えれば、他の属性値にもエンティティの発音が含まれる。また、エンティティの発音が即ち属性値であることではなく、発音が属性値に含まれ、且つ該属性値に出現する位置が法則に従うものである場合がある。この場合は、発音抽出テンプレートを自動的に生成してこれらの発音のマッチングを行ってもよい。
発音抽出テンプレートの具体的な生成方法は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。
好ましくは、該少なくとも1つの第1所定属性の属性値及び該少なくとも1つの第2所定属性の属性値は文字列型の属性値であってもよい。
好ましくは、該少なくとも1つのエンティティの各エンティティについて、該エンティティのリンクされた対応エンティティの属性に該少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、該1つの第1所定属性の属性値を該エンティティの発音とし、該エンティティのリンクされた対応エンティティの属性に該少なくとも1つの第1所定属性が何れも含まれていない場合、該少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。
具体的には、該エンティティのリンクされた対応エンティティの属性に何れかの第1所定属性が含まれているか否かを判断し、ある場合は、該対応エンティティは、属性値が即ち発音である属性を含み、該何れかの第1所定属性の属性値を該エンティティの発音としてもよい。該エンティティのリンクされた対応エンティティの属性に第1所定属性が何れも含まれていない場合、該対応エンティティは属性値が即ち発音である属性を含まなく、発音抽出テンプレートを用いて該エンティティの発音を決定してもよい。
好ましくは、該少なくとも1つの発音抽出テンプレートを用いて該少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、該少なくとも1つの発音抽出テンプレートを用いて、該1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を該1つのエンティティの発音とするステップ、を含んでもよい。
具体的には、エンティティのリンクされた対応エンティティの属性に第1所定属性が何れも含まれていない場合、発音抽出テンプレートを用いて、該対応エンティティの文字列型の属性値に対してマッチングを行い、一致した文字列を該エンティティの発音としてもよい。
エンティティのリンクされた対応エンティティの属性に基づいてエンティティの発音を取得する方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。
また、例えばエンティティ認識部502は、対応エンティティに関連する発音に基づいてエンティティの発音を決定してもよい。具体的には、対応エンティティの1つの固有の発音属性を作成し、上述したようにLODのデータセットから発音を取得した後に、取得された発音を該固有の発音属性の属性値に記憶してもよい。入力されたテキストから多音字のエンティティを認識した場合、該エンティティをLODのデータセットにおける対応エンティティにリンクした後に、対応エンティティの「発音属性」の属性値を検索することで、該多音字のエンティティの発音を取得できる。
対応エンティティの関連発音に基づくエンティティの発音の決定方法の具体的な例は、上記方法の実施例の関連説明を参照してもよく、ここでその説明を省略する。
上述したように、本発明の実施例のエンティティの多音字の曖昧さ回避装置によれば、発音を決定しようとするエンティティの多音字をLODの対応エンティティにリンクし、該対応エンティティの関連属性値から発音を取得する。LODにおける各エンティティはユニークなものであるため、取得された発音にも曖昧さがなく、エンティティの多音字の発音に対して曖昧さ回避を行うことができる。
なお、以上は本発明の実施例のエンティティの多音字の曖昧さ回避装置の機能的構成を説明しているが、これは単なる一例であり、本発明を限定するものではなく、当業者が本発明の原理に基づいて上記実施例を変更し、例えば各実施例における機能的モジュールを追加、削除、或いは組み合わせてもよく、これらの変更は本発明の範囲内に入るものである。
なお、ここの装置の実施例は上記方法の実施例に対応するものであるため、装置の実施例において詳細に説明されていない内容は方法の実施例の対応部分の説明を参照してもよく、ここでその説明を省略する。
なお、本発明の実施例の記憶媒体及びプログラムプロダクトの機器において実行される指令は、上記エンティティの多音字の曖昧さ回避方法を実行するように構成されてもよいため、ここで詳細に説明されていない内容は上記の対応部分の説明を参照してもよく、ここでその説明を省略する。
それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリスティックを含むが、これらに限定されない。
なお、上記装置における各構成要件、ユニットはソフトウェア、ファームウェア、ハードウェア又はそれらの組み合わせにより実現されてもよい。用いられる具体的な手段又は方式の構成は当業者にとって周知であり、ここでその説明が省略される。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ、例えば図6示されている汎用パーソナルコンピュータ600に上記方法を実施するためのソフトウェアを構成するプログラムをインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。
図6において、中央処理部(即ちCPU)601は、読み出し専用メモリ(ROM)602に記憶されているプログラム、又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムにより各種の処理を実行する。RAM603には、必要に応じて、CPU601が各種の処理を実行するに必要なデータが記憶されている。
CPU601、ROM602、及びRAM603は、バス604を介して互いに接続されている。入力/出力インターフェース605もバス604に接続されている。
入力部606(キーボード、マウスなどを含む)、出力部607(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部608(例えばハードディスクなどを含む)、通信部609(例えばネットワークのインタフェースカード、例えばLANカード、モデムなどを含む)は、入力/出力インターフェース605に接続されている。通信部609は、ネットワーク、例えばインターネットを介して通信処理を実行する。
必要に応じて、ドライブ部610は、入力/出力インターフェース605に接続されてもよい。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどであり、必要に応じてドライブ部610にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部608にインストールされている。
ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体611を介してソフトウェアを構成するプログラムをインストールする。
なお、これらの記憶媒体は、図6に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体611に限定されない。取り外し可能な媒体611は、例えば磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM602、記憶部608に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。
以上は本発明の具体的な実施例の説明を通じて本発明を開示するが、上記の全ての実施例及び例は例示的なものであり、制限的なものではない。当業者は、特許請求の範囲の主旨及び範囲内で本発明に対して各種の修正、改良、均等的なものに変更してもよい。これらの修正、改良又は均等的なものに変更することは本発明の保護範囲に含まれるものである。
例えば、上記の実施例の1つのユニットに含まれる複数の機能はそれぞれの装置により実現されてもよい。又は、上記の実施例の複数のユニットに含まれる複数の機能はそれぞれの装置によりそれぞれ実現されてもよい。また、上記の機能の1つは複数のユニットにより実現されてもよい。なお、このような構成は本発明の技術的範囲内に含まれる。
また、本発明の方法は、明細書に説明された時間的順序で実行するものに限定されず、他の時間的順序で順次、並行、又は独立して実行されてもよい。このため、本明細書に説明された方法の実行順序は、本発明の技術的な範囲を限定するものではない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識ステップと、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法。
(付記2)
前記少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含む、付記1に記載のエンティティの多音字の曖昧さ回避方法。
(付記3)
前記少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含む、付記2に記載のエンティティの多音字の曖昧さ回避方法。
(付記4)
前記少なくとも1つの第1所定属性は、
前記LODのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、
前記LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、前記少なくとも1つの第1所定属性として選択することによって取得される、付記2に記載のエンティティの多音字の曖昧さ回避方法。
(付記5)
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記LODのデータセットに出現する総回数との比である、付記4に記載のエンティティの多音字の曖昧さ回避方法。
(付記6)
前記少なくとも1つの発音抽出テンプレートは、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの前記何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、前記少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成される、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記7)
前記少なくとも1つの第1所定属性の属性値及び前記少なくとも1つの第2所定属性の属性値は文字列型の属性値である、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記8)
前記少なくとも1つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、前記1つの第1所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性が何れも含まれていない場合、前記少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記9)
前記少なくとも1つの発音抽出テンプレートを用いて前記少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、
前記少なくとも1つの発音抽出テンプレートを用いて、前記1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記1つのエンティティの発音とするステップ、を含む、付記8に記載のエンティティの多音字の曖昧さ回避方法。
(付記10)
入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識手段と、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置。
(付記11)
前記少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含む、付記10に記載のエンティティの多音字の曖昧さ回避装置。
(付記12)
前記少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含む、付記11に記載のエンティティの多音字の曖昧さ回避装置。
(付記13)
前記少なくとも1つの第1所定属性は、
前記LODのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、
前記LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、前記少なくとも1つの第1所定属性として選択することによって取得される、付記11に記載のエンティティの多音字の曖昧さ回避装置。
(付記14)
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記LODのデータセットに出現する総回数との比である、付記13に記載のエンティティの多音字の曖昧さ回避装置。
(付記15)
前記少なくとも1つの発音抽出テンプレートは、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの前記何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、前記少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成される、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記16)
前記少なくとも1つの第1所定属性の属性値及び前記少なくとも1つの第2所定属性の属性値は文字列型の属性値である、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記17)
前記少なくとも1つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、前記1つの第1所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性が何れも含まれていない場合、前記少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記18)
前記少なくとも1つの発音抽出テンプレートを用いて前記少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、
前記少なくとも1つの発音抽出テンプレートを用いて、前記1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記1つのエンティティの発音とするステップ、を含む、付記17に記載のエンティティの多音字の曖昧さ回避装置。
(付記1)
入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識ステップと、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法。
(付記2)
前記少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含む、付記1に記載のエンティティの多音字の曖昧さ回避方法。
(付記3)
前記少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含む、付記2に記載のエンティティの多音字の曖昧さ回避方法。
(付記4)
前記少なくとも1つの第1所定属性は、
前記LODのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、
前記LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、前記少なくとも1つの第1所定属性として選択することによって取得される、付記2に記載のエンティティの多音字の曖昧さ回避方法。
(付記5)
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記LODのデータセットに出現する総回数との比である、付記4に記載のエンティティの多音字の曖昧さ回避方法。
(付記6)
前記少なくとも1つの発音抽出テンプレートは、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの前記何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、前記少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成される、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記7)
前記少なくとも1つの第1所定属性の属性値及び前記少なくとも1つの第2所定属性の属性値は文字列型の属性値である、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記8)
前記少なくとも1つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、前記1つの第1所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性が何れも含まれていない場合、前記少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記3に記載のエンティティの多音字の曖昧さ回避方法。
(付記9)
前記少なくとも1つの発音抽出テンプレートを用いて前記少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、
前記少なくとも1つの発音抽出テンプレートを用いて、前記1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記1つのエンティティの発音とするステップ、を含む、付記8に記載のエンティティの多音字の曖昧さ回避方法。
(付記10)
入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識手段と、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置。
(付記11)
前記少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含む、付記10に記載のエンティティの多音字の曖昧さ回避装置。
(付記12)
前記少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含む、付記11に記載のエンティティの多音字の曖昧さ回避装置。
(付記13)
前記少なくとも1つの第1所定属性は、
前記LODのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、
前記LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、前記少なくとも1つの第1所定属性として選択することによって取得される、付記11に記載のエンティティの多音字の曖昧さ回避装置。
(付記14)
前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記LODのデータセットに出現する総回数との比である、付記13に記載のエンティティの多音字の曖昧さ回避装置。
(付記15)
前記少なくとも1つの発音抽出テンプレートは、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの前記何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、前記少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成される、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記16)
前記少なくとも1つの第1所定属性の属性値及び前記少なくとも1つの第2所定属性の属性値は文字列型の属性値である、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記17)
前記少なくとも1つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、前記1つの第1所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性が何れも含まれていない場合、前記少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定する、付記12に記載のエンティティの多音字の曖昧さ回避装置。
(付記18)
前記少なくとも1つの発音抽出テンプレートを用いて前記少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、
前記少なくとも1つの発音抽出テンプレートを用いて、前記1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記1つのエンティティの発音とするステップ、を含む、付記17に記載のエンティティの多音字の曖昧さ回避装置。
Claims (10)
- 入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識ステップと、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定ステップと、を含む、エンティティの多音字の曖昧さ回避方法。 - 前記少なくとも1つの属性は、属性値が即ち発音である少なくとも1つの第1所定属性を含む、請求項1に記載のエンティティの多音字の曖昧さ回避方法。
- 前記少なくとも1つの属性は、属性値が少なくとも1つの発音抽出テンプレートを用いて抽出可能な発音を含む少なくとも1つの第2所定属性をさらに含む、請求項2に記載のエンティティの多音字の曖昧さ回避方法。
- 前記少なくとも1つの第1所定属性は、
前記LODのデータセットにおける各エンティティの名称を取得し、
前記エンティティの名称の各文字の辞書における全ての発音に基づいて、該エンティティの全ての発音を候補発音として並べ、
該エンティティの属性に、属性値が該エンティティの候補発音のうちいずれか1つの発音と完全に一致する属性が存在する場合、該属性を1つの候補属性として選択し、
前記LODのデータセットにおける全てのエンティティについて選択された全ての候補属性から、候補属性の発音を表す確率が所定閾値よりも高い少なくとも1つの候補属性を、前記少なくとも1つの第1所定属性として選択することによって取得される、請求項2に記載のエンティティの多音字の曖昧さ回避方法。 - 前記候補属性の発音を表す確率は、前記候補属性の属性値が発音である回数と前記候補属性が前記LODのデータセットに出現する総回数との比である、請求項4に記載のエンティティの多音字の曖昧さ回避方法。
- 前記少なくとも1つの発音抽出テンプレートは、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む各エンティティについて、該エンティティの前記何れかの第1所定属性の属性値に基づいて該エンティティの発音を決定し、
該発音の、該エンティティの発音を含む他の属性の属性値における出現位置の法則を決定し、
前記LODのデータセットにおける前記少なくとも1つの第1所定属性の何れかの第1所定属性を含む全てのエンティティに基づいて、前記少なくとも1つの発音抽出テンプレートを自動的に生成することによって生成される、請求項3に記載のエンティティの多音字の曖昧さ回避方法。 - 前記少なくとも1つの第1所定属性の属性値及び前記少なくとも1つの第2所定属性の属性値は文字列型の属性値である、請求項3に記載のエンティティの多音字の曖昧さ回避方法。
- 前記少なくとも1つのエンティティの各エンティティについて、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性のうち1つの第1所定属性が含まれている場合、前記1つの第1所定属性の属性値を該エンティティの発音とし、
該エンティティのリンクされた対応エンティティの属性に前記少なくとも1つの第1所定属性が何れも含まれていない場合、前記少なくとも1つの発音抽出テンプレートを用いて該エンティティの発音を決定する、請求項3に記載のエンティティの多音字の曖昧さ回避方法。 - 前記少なくとも1つの発音抽出テンプレートを用いて前記少なくとも1つのエンティティのうち1つのエンティティの発音を決定するステップは、
前記少なくとも1つの発音抽出テンプレートを用いて、前記1つのエンティティのリンクされた対応エンティティの少なくとも1つの属性の文字列型の属性値に対してマッチングを行い、一致した文字列を前記1つのエンティティの発音とするステップ、を含む、請求項8に記載のエンティティの多音字の曖昧さ回避方法。 - 入力されたテキストから、多音字を含む少なくとも1つのエンティティを認識するエンティティ認識手段と、
前記少なくとも1つのエンティティの各エンティティについて、該エンティティをLOD(リンクト・オープン・データ)のデータセットにおける対応エンティティにリンクし、前記対応エンティティの、属性値が発音を含む少なくとも1つの属性及び/又は前記対応エンティティに関連する発音に基づいて、該エンティティの発音を決定する発音決定手段と、を含む、エンティティの多音字の曖昧さ回避装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610342051.1A CN107402933A (zh) | 2016-05-20 | 2016-05-20 | 实体多音字消歧方法和实体多音字消歧设备 |
CN201610342051.1 | 2016-05-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017208097A true JP2017208097A (ja) | 2017-11-24 |
Family
ID=60388995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017100185A Pending JP2017208097A (ja) | 2016-05-20 | 2017-05-19 | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2017208097A (ja) |
CN (1) | CN107402933A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078898A (zh) * | 2019-12-27 | 2020-04-28 | 出门问问信息科技有限公司 | 一种多音字标注方法、装置以及计算机可读存储介质 |
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
CN112818657A (zh) * | 2019-11-15 | 2021-05-18 | 北京字节跳动网络技术有限公司 | 多音字读音的确定方法、装置、电子设备及存储介质 |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
CN115273809A (zh) * | 2022-06-22 | 2022-11-01 | 北京市商汤科技开发有限公司 | 多音字读音预测网络的训练方法、语音生成方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110277085B (zh) * | 2019-06-25 | 2021-08-24 | 腾讯科技(深圳)有限公司 | 确定多音字发音的方法及装置 |
CN113302683B (zh) * | 2019-12-24 | 2023-08-04 | 深圳市优必选科技股份有限公司 | 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质 |
CN112908293B (zh) * | 2021-03-11 | 2022-08-02 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9135238B2 (en) * | 2006-03-31 | 2015-09-15 | Google Inc. | Disambiguation of named entities |
CN101271449B (zh) * | 2007-03-19 | 2010-09-22 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
CN102436456B (zh) * | 2010-09-29 | 2016-03-30 | 国际商业机器公司 | 用于对命名实体进行分类的方法和装置 |
CN102968419B (zh) * | 2011-08-31 | 2017-05-03 | 微软技术许可有限责任公司 | 交互式互联网实体名称的消歧方法 |
JP5936698B2 (ja) * | 2012-08-27 | 2016-06-22 | 株式会社日立製作所 | 単語意味関係抽出装置 |
CN104182420A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 一种基于本体的中文人名消歧方法 |
US9298811B2 (en) * | 2013-07-15 | 2016-03-29 | International Business Machines Corporation | Automated confirmation and disambiguation modules in voice applications |
CN104462126B (zh) * | 2013-09-22 | 2018-04-27 | 富士通株式会社 | 一种实体链接方法及装置 |
CN103631970B (zh) * | 2013-12-20 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 挖掘属性和实体关联关系的方法和装置 |
US9773499B2 (en) * | 2014-06-18 | 2017-09-26 | Google Inc. | Entity name recognition based on entity type |
CN105468605B (zh) * | 2014-08-25 | 2019-04-12 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104636466B (zh) * | 2015-02-11 | 2020-07-31 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
-
2016
- 2016-05-20 CN CN201610342051.1A patent/CN107402933A/zh active Pending
-
2017
- 2017-05-19 JP JP2017100185A patent/JP2017208097A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818657A (zh) * | 2019-11-15 | 2021-05-18 | 北京字节跳动网络技术有限公司 | 多音字读音的确定方法、装置、电子设备及存储介质 |
CN112818657B (zh) * | 2019-11-15 | 2024-04-26 | 北京字节跳动网络技术有限公司 | 多音字读音的确定方法、装置、电子设备及存储介质 |
CN111078898A (zh) * | 2019-12-27 | 2020-04-28 | 出门问问信息科技有限公司 | 一种多音字标注方法、装置以及计算机可读存储介质 |
CN111078898B (zh) * | 2019-12-27 | 2023-08-08 | 出门问问创新科技有限公司 | 一种多音字标注方法、装置以及计算机可读存储介质 |
CN111599340A (zh) * | 2020-07-27 | 2020-08-28 | 南京硅基智能科技有限公司 | 一种多音字读音预测方法、装置及计算机可读存储介质 |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
CN115273809A (zh) * | 2022-06-22 | 2022-11-01 | 北京市商汤科技开发有限公司 | 多音字读音预测网络的训练方法、语音生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107402933A (zh) | 2017-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017208097A (ja) | エンティティの多音字の曖昧さ回避方法及びエンティティの多音字の曖昧さ回避装置 | |
JP6175900B2 (ja) | 翻訳装置、方法、及びプログラム | |
WO2017130434A1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
JP2002312357A (ja) | 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 | |
US11537797B2 (en) | Hierarchical entity recognition and semantic modeling framework for information extraction | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
JP6077727B1 (ja) | 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム | |
JP2018055670A (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
US20230289538A1 (en) | Systems and methods for code-switched semantic parsing | |
EP3736726A1 (en) | Automated chatbot linguistic expression generation | |
JP7511381B2 (ja) | 文生成装置、文生成方法および文生成プログラム | |
JP2017058804A (ja) | 検出装置、方法およびプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
JP4476609B2 (ja) | 中国語解析装置、中国語解析方法および中国語解析プログラム | |
JP2010092169A (ja) | 情報処理装置及びプログラム | |
Athukorala et al. | Swa Bhasha: Message-Based Singlish to Sinhala Transliteration | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
JP2004318809A (ja) | 情報抽出規則生成装置および方法 | |
JP5302784B2 (ja) | 機械翻訳方法、及びシステム | |
CN118467683B (zh) | 基于自然语言的合同文本审查方法、系统、装置及介质 | |
WO2009144890A1 (ja) | 翻訳前換言規則生成システム | |
KR102661819B1 (ko) | 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 |