JP2021501420A - 語義曖昧性解消方法及び装置、語義拡張方法、装置及び機器、コンピュータ読取可能な記憶媒体 - Google Patents
語義曖昧性解消方法及び装置、語義拡張方法、装置及び機器、コンピュータ読取可能な記憶媒体 Download PDFInfo
- Publication number
- JP2021501420A JP2021501420A JP2020524159A JP2020524159A JP2021501420A JP 2021501420 A JP2021501420 A JP 2021501420A JP 2020524159 A JP2020524159 A JP 2020524159A JP 2020524159 A JP2020524159 A JP 2020524159A JP 2021501420 A JP2021501420 A JP 2021501420A
- Authority
- JP
- Japan
- Prior art keywords
- word
- training
- target
- disambiguation
- input sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本発明は上位語に基づく語義曖昧性解消方法及び機器、当該語義曖昧性解消方法を用いる語義拡張方法及び機器、及びコンピュータ読取可能な記憶媒体に関する。当該語義曖昧性解消方法は入力文(S101)を受信するステップと、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語(S102)を決定するステップと、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語(S103)を決定するステップと、前記関連語の1つ又は複数の上位語(S104)を決定するステップと、前記関連語及び前記1つ又は複数の上位語の語形、品詞及び対象語との構文的関係に基づき、前記対象語の前記入力文における語義(S105)を決定するステップとを含む。
Description
本出願は、2017年10月31日に提出された出願番号が201711048364.7である中国特許出願の優先権を主張し、上記の中国特許出願の全ての開示内容は、ここで本出願の一部として引用される。
本発明は、人工知能分野に関し、より具体的に、本発明は、語義曖昧性解消方法及び機器、当該語義曖昧性解消方法を用いる語義拡張方法及び装置、及びコンピュータ読取可能な記憶媒体に関する。
語義の曖昧性解消(WSD)とは、自然言語の特定のコンテキストにおける多義語の語義を決定することを指す。語義の曖昧性解消は自然言語処理分野の基礎的な問題である。自然言語処理の対象となる文に多義語が存在する場合、当該文のコンテキストにおける多義語の正しい語義を正確に決定できなければ、言葉の曖昧性を生じ、それにより自然言語に対する機械の正しい理解及び処理に大きく影響する。言語認識、機械翻訳、情報検索、テキスト分類、自動要約など、自然言語をベースとする応用分野において、いずれも多義語の語義曖昧性解消問題を解決する必要がある。
現在、コーパスに基づく語義曖昧性解消方案は主に監督及び無監督方法を含む。無監督方法ではコーパスの訓練が必要とされないが、その曖昧性解消の精度が実用上の要求を満足することができない。従来の監督方法では曖昧性解消モデルを訓練するための大規模で高品質のコーパスが必要とされるが、実際の曖昧性解消の対象となる文にはコーパスにカバーされていない単語があると、曖昧性単語を決定できない可能性がある。
上記の問題を解決するため、本発明は語義曖昧性解消方法及び機器、当該語義曖昧性解消方法を用いる語義拡張方法及び装置、及びコンピュータ読取可能な記憶媒体を提供することを目的とする。
本発明の一実施例によれば、入力文を受信するステップと、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語を決定するステップと、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップと、前記関連語の1つ又は複数の上位語を決定するステップと、前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するステップと、を含む語義曖昧性解消方法を提供する。
また、本発明の一実施例に係る語義曖昧性解消方法によれば、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップは、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定するステップと、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するステップと、を含む。
また、本発明の一実施例に係る語義曖昧性解消方法によれば、さらに、前記語義曖昧性解消方法を実行する語義曖昧性解消モジュールを事前に訓練することを含み、前記語義曖昧性解消モジュールを訓練するステップは、訓練に用いられる訓練データをタグ付けするステップと、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得するステップと、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定するステップと、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定するステップと、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定するステップと、前記訓練特徴を用いて前記語義曖昧性解消モジュールを訓練するステップと、を含む。
本発明の別の実施例によれば、入力文を受信するステップと、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定するステップと、語義曖昧性解消モジュールを用いて前記曖昧性解消対象語の前記入力文における語義を決定するステップと、予め決められた同義語シソーラスに基づき、前記非曖昧性単語及び前記曖昧性解消対象語の語義にそれぞれ対応する同義語及び上位語を決定するステップと、前記同義語及び上位語を用いて前記入力文を拡張するステップとを含む語義拡張方法を提供し、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップと、前記関連語の1つ又は複数の上位語を決定するステップと、前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するステップと、を含む。
また、本発明の別の実施例に係る語義拡張方法によれば、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップは、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定するステップと、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するステップと、を含む。
また、本発明の別の実施例に係る語義拡張方法によれば、さらに、前記語義曖昧性解消方法を実行する語義曖昧性解消モジュールを事前に訓練することを含み、前記語義曖昧性解消モジュールを訓練するステップは、訓練に用いられる訓練データをタグ付けするステップと、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得するステップと、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定するステップと、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定するステップと、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定するステップと、前記訓練特徴を用いて前記語義曖昧性解消モジュールを訓練するステップと、を含む。
本発明の別の実施例によれば、入力文を受信するように構成される受信ユニットと、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語を決定するように構成される対象語決定ユニットと、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される関連語決定ユニットと、前記関連語の1つ又は複数の上位語を決定するように構成される上位語決定ユニットと、前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される語義曖昧性解消ユニットと、を含む語義曖昧性解消機器を提供する。
また、本発明の別の実施例に係る語義曖昧性解消機器によれば、前記関連語決定ユニットはさらに、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される。
また、本発明の別の実施例に係る語義曖昧性解消機器によれば、訓練に用いられる訓練データをタグ付けし、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される訓練ユニットをさらに含む。
本発明の別の実施例によれば、入力文を受信するように構成される受信モジュールと、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定するように構成される対象語決定モジュールと、前記曖昧性解消対象語の前記入力文における語義を決定するように構成される語義曖昧性解消モジュールと、予め決められた同義語シソーラスに基づき、前記非曖昧性単語及び前記曖昧性解消対象語の語義にそれぞれ対応する同義語及び上位語を決定し、また前記同義語及び上位語を用いて、前記入力文を拡張するように構成される語義拡張モジュールと、を含む語義拡張装置を提供し、前記語義曖昧性解消モジュールはさらに、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される関連語決定ユニットと、前記関連語の1つ又は複数の上位語を決定するように構成される上位語決定ユニットと、前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される語義曖昧性解消ユニットと、を含むように構成される。
また、本発明の別の実施例に係る語義拡張機器によれば、前記関連語決定ユニットはさらに、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される。
また、本発明の別の実施例に係る語義曖昧性解消機器によれば、訓練に用いられる訓練データをタグ付けし、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される訓練モジュールをさらに含む。
本発明の別の実施例によれば、プロセッサと、コンピュータプログラム命令を格納するように構成されるメモリと、を含む語義曖昧性解消機器を提供し、前記コンピュータプログラム命令が前記プロセッサにより実行される場合、前記プロセッサが語義曖昧性解消方法を実行する。
本発明の別の実施例によれば、プロセッサと、コンピュータプログラム命令を格納するように構成されるメモリと、を含む語義拡張機器を提供し、前記コンピュータプログラム命令が前記プロセッサにより実行される場合、前記プロセッサが語義拡張方法を実行する。
本発明の別の実施例によれば、コンピュータ読取可能な記憶媒体を提供し、前記コンピュータ読取可能な記憶媒体にコンピュータプログラム命令が格納され、前記コンピュータプログラム命令がプロセッサにより実行される場合、前記プロセッサが語義曖昧性解消方法を実行する。
本発明の別の実施例によれば、コンピュータ読取可能な記憶媒体を提供し、前記コンピュータ読取可能な記憶媒体にコンピュータプログラム命令が格納され、前記コンピュータプログラム命令がプロセッサにより実行される場合、前記プロセッサが語義拡張方法を実行する。
本発明の実施例に係る語義曖昧性解消方法及び機器、当該語義曖昧性解消方法を用いる語義拡張方法及び装置によれば、構文解析により曖昧性解消対象語の関連語を決定し、関連語をその上位語に拡張し、それにより関連語及びその上位語を考慮することで、曖昧性解消対象語の語義決定を実現し、訓練コーパスの大きさへの依存性を大きく軽減する。上記の一般的な説明及び下記の詳細的な説明はいずれも例示的なものであり、保護を求めようとする技術へのさらなる説明を図るものと理解されたい。
図面を合わせて本発明の実施例をより詳細に説明し、本発明の上記及びその他の目的、特徴及び優位性がより明らかになる。図面は本発明の実施例へのさらなる理解のために提供され、本説明書の一部を構成し、本発明の実施例とともに本発明の解釈に使用され、本発明を限定するものではない。図面では、通常、同一の部品又はステップを同一の参考符号で表す。
本発明の目的、技術解決案及び利点を明らかにするために、以下、図面を参照し本発明の例示的な実施例を詳細に説明する。説明する実施例は本発明の一部の実施例であり、本発明の全部の実施例ではないことが明らかであり、本発明はここで説明する例示的な実施例によって制限されないことを理解されたい。本発明で説明される実施例に基づき、当業者が創造的な労働をせずに得られたすべての他の実施例は本発明の保護範囲内にある。
以下、図面を参照し本発明の実施例を詳細に説明する。まず、図1〜図4を参照し、本発明の実施例に係る語義曖昧性解消方法、当該語義曖昧性解消方法を実現する語義曖昧性解消モジュールの訓練方法、及び当該語義曖昧性解消方法を用いる語義曖昧性解消機器を説明する。
図1は本発明の実施例に係る語義曖昧性解消方法を図示するフローチャートである。図1に示すように、本発明の実施例に係る語義曖昧性解消方法は以下のステップを含む。
S101では、入力文を受信する。本発明の実施例において、例えば、「彼はかなり武芸に長けている」の文を受信する。その後、処理はS102に進む。
S102において、予め決められた多義語シソーラスに基づき、入力文の曖昧性解消対象語を決定する。本発明の実施例において、予め決められた多義語シソーラスは後述する訓練段階で訓練コーパスに対して生成されるものである。入力文に対し、予め決められた多義語シソーラスを検索し、予め決められた多義語シソーラスに存在する曖昧性単語を曖昧性解消対象語として決定する。例えば、S101で受信された「彼はかなり武芸に長けている」の文に対し、「長けている」を曖昧性解消対象語として決定する。曖昧性解消対象語の「長けている」には「優れている、並外れて優れている」及び「背高い」のような語義がある。その後、処理はS103に進む。
S103では、入力文に対する構文解析及びコンテキストの情報解析に基づき、対象語の関連語を決定する。以下、図2を参照し、入力文に対する構文解析及びコンテキストの情報解析に基づき、いかにして対象語の関連語を決定するかを説明する。例えば、S101で受信された「彼はかなり武芸に長けている」の文に関しては、S102で「長けている」を曖昧性解消対象語として決定した後、S103で「武芸」を対象語「長けている」の関連語として決定する。その後、処理はS104に進む。
S104では、関連語の1つ又は複数の上位語を決定する。例えば、「長けている」を曖昧性解消対象語とし、「武芸」を対象語「長けている」の関連語とする場合、関連語「武芸」の上位語を「才能、パフォーマンス」を決定する。その後、処理はS105に進む。
S105では、関連語及び1つ又は複数の上位語に基づき、対象語の入力文における語義を決定する。例えば、関連語の「武芸」及び上位語の「才能、パフォーマンス」に基づき、「長けている」及び「才能、パフォーマンス」に対応する語義が「背高い」ではなく、「優れている、並外れて優れている」であることを容易に判別する。
図1に示される本発明の実施例に係る語義曖昧性解消方法によれば、入力文に対する構文解析及びコンテキストの情報解析により、対象語の関連語を決定し、関連語をその上位語に拡張し、それにより関連語及びその上位語を考慮することで、曖昧性解消対象語の語義決定を実現し、訓練コーパスの大きさへの依存性を大きく軽減する。例えば、規模の小さい訓練コーパスには関連語の「武芸」が現れなくても、関連語の「武芸」の上位語「才能、パフォーマンス」によって対象語の「背高い」の文中での正しい語義を正確に決定することができる。上記の関連語をその上位語に拡張しなければ、限られた規模の訓練コーパスに関連語が現れないため、対象語の語義を正確に決定できない可能性が高い。
図2は本発明の実施例に係る語義曖昧性解消方法をさらに図示するフローチャートである。図2に示すように、本発明の実施例に係る語義曖昧性解消方法は以下のステップを含む。
S200では、語義曖昧性解消モジュールを訓練する。本発明の実施例において、サポートベクターマシン(SVM)分類器を語義曖昧性解消モジュールとして使用できるため、語義曖昧性解消方法を実行する前に、訓練コーパスを用いて語義曖昧性解消モジュールを訓練しなければならない。以下、図3を参照し、本発明の実施例に係る語義曖昧性解消モジュールの訓練方法を詳細に説明する。訓練された語義曖昧性解消モジュールを取得した後に、処理はS201に進む。
図2のS201及びS202は図1に示されるS101及びS102の内容と重複するため、説明を省略する。その後、処理はS203に進む。S203及びS204は図1に示されるS103で対象語の関連語を決定するための具体的な処理ステップである。
S203では、入力文の品詞解析用タグに基づき、入力文の各単語の品詞を決定する。本発明の実施例において、品詞タグ付け(POS)処理を行い、入力文の品詞を取得する。その後、処理はS204に進む。
S204では、品詞及び構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により対象語の関連語を決定する。
本発明の実施例において、構文解析の構文的関係タイプにより、例として表1に示す。
S203で各単語の品詞を決定し、S204で構文的関係のタイプを決定した後、予め決められた規則により対象語の関連語を決定することができる。例えば、入力文「彼はかなり武芸に長けている」、対象語「長けている」の品詞は形容詞、「彼」は代詞、「武芸」は名詞、「かなり」は副詞であり、また構文解析から「武芸」及び「長けている」の間に定語修飾関係があるので、「武芸」は対象語「長けている」の関連語であることを決定する。関連語を決定した後、処理はS205に進む。
S205及びS206はそれぞれ図1に示されるS104及びS105の内容(関連語及び1つ又は複数の上位語に基づき、対象語の入力文における語義を決定する過程)と重複するため、ここで説明を省略する。
図3は本発明の実施例に係る語義曖昧性解消モジュールの訓練方法を図示するフローチャートである。図3に示すように、本発明の実施例に係る語義曖昧性解消モジュールの訓練方法は以下のステップを含む。
S301では、訓練に用いられる訓練データをタグ付けする。その後、処理はS302に進む。
S302では、訓練データに対してデータ処理を実行し、予め決められた多義語シソーラスを取得する。本発明の実施例において、データの処理とフィルタにより、有用なデータを抽出し、予め決められた数の曖昧性単語を含む予め決められた多義語シソーラスを取得する。その後、処理はS303に進む。
S303では、訓練データにおける各訓練文について、予め決められた多義語シソーラスに基づき、各訓練文の曖昧性解消訓練対象語を決定する。S303では、訓練データにおける各訓練文について、曖昧性解消訓練対象語を決定する方法は上記の図1に示されるS102及び図2に示されるS202と同様であり、いずれも予め決められた多義語シソーラスを検索するという方式を採用する。その後、処理はS304に進む。
S304では、各訓練文に対する構文解析及びコンテキストの情報解析に基づき、訓練対象語の訓練関連語を決定する。S304では、訓練データにおける各訓練文の曖昧性解消訓練対象語について、訓練対象語の訓練関連語を決定する方法は上記の図1に示されるS103及び図2に示されるS203及びS204と同様であり、いずれも品詞タグ付け(POS)処理により訓練文の品詞を取得し、構文解析を用いて構文的関係のタイプを決定し、予め決められた規則により対象語の関連語を決定するようになっている。その後、処理はS305に進む。
S305では、訓練対象語、訓練関連語、訓練対象語及び訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定する。本発明の実施例において、訓練対象語、訓練関連語、訓練対象語及び訓練関連語の上位語及びこれらの単語の語形、品詞などを訓練のための特徴として抽出し、特徴変換(例えば、特徴へのハッシュ化を組み入れる)を実行し、機械学習に適する特徴を取得する。その後、処理はS306に進む。
S306では、訓練特徴を用いて語義曖昧性解消モジュールを訓練する。本発明の実施例において、訓練特徴SVM分類器を使用し、訓練されたモデルを語義曖昧性解消モジュールとして保存する。
図4は本発明の実施例に係る語義曖昧性解消機器を図示するブロック図である。図4に示すように、本発明の実施例に係る語義曖昧性解消機器400は受信ユニット401と、対象語決定ユニット402と、関連語決定ユニット403と、上位語決定ユニット404と、語義曖昧性解消ユニット405とを含む。
具体的には、受信ユニット401は入力文を受信するように構成される。対象語決定ユニット402は予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語を決定するように構成される。関連語決定ユニット403は前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される。上位語決定ユニット404は前記関連語の1つ又は複数の上位語を決定するように構成される。語義曖昧性解消ユニット405は前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される。前記関連語決定ユニット403はさらに、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される。上記の語義曖昧性解消機器400の各ユニットは図1及び図2に示される本発明の実施例に係る語義曖昧性解消方法を参照して実行する。
また、本発明の実施例に係る語義曖昧性解消機器400はさらに訓練ユニット(図示せず)を含む。訓練ユニットは、訓練に用いられる訓練データをタグ付けし、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される。
以上、図1から図4を参照して本発明の実施例に係る語義曖昧性解消方法及び語義曖昧性解消機器を説明する。以下、さらに図5から図7を参照して本発明の実施例に係る語義曖昧性解消方法を用いる語義拡張方法及び語義拡張装置を説明する。
図5は本発明の実施例に係る語義拡張方法を図示するフローチャートである。図5に示すように、本発明の実施例に係る語義拡張方法は以下のステップを含む。
S501では、入力文を受信する。本発明の実施例において、本発明の実施例に係る語義拡張方法により受信された入力文の単語を用いて語義拡張を行う。その後、処理はS502に進む。
S502において、予め決められた多義語シソーラスに基づき、入力文の曖昧性解消対象語及び非曖昧性単語を決定する。本発明の実施例において、予め決められた多義語シソーラスは上記の図3に示される訓練段階で決定されるものであってもよい。その後、処理はS503に進む。
S503では、語義曖昧性解消モジュールを用いて曖昧性解消対象語の入力文における語義を決定する。本発明の実施例において、語義曖昧性解消モジュールは図1及び図2に示される語義曖昧性解消方法を実行し、即ち、入力文に対する構文解析及びコンテキストの情報解析により、対象語の関連語を決定し、関連語をその上位語に拡張し、それにより関連語及びその上位語を考慮することで、曖昧性解消対象語の語義決定を実現する。その後、処理はS504に進む。
S504では、予め決められた同義語シソーラスに基づき、非曖昧性単語及び曖昧性解消対象語の語義にそれぞれ対応する同義語及び上位語を決定する。本発明の実施例において、予め決められた同義語シソーラスは従来の「同義語辞林」であってもよい。その後、処理はS505に進む。
S505では、同義語及び上位語を用いて、入力文を拡張する。
図6は本発明の実施例に係る語義拡張装置を図示するブロック図である。図6に示すように、本発明の実施例に係る語義拡張装置600は受信モジュール601と、対象語決定モジュール602と、語義曖昧性解消モジュール603と、語義拡張モジュール604とを含む。
具体的には、受信モジュール601は入力文を受信するように構成される。対象語決定モジュール602は予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定するように構成される。語義曖昧性解消モジュール603は前記曖昧性解消対象語の前記入力文における語義を決定するように構成される。語義拡張モジュール604は予め決められた同義語シソーラスに基づき、前記非曖昧性単語及び前記曖昧性解消対象語の語義のそれぞれに対応する同義語及び上位語を決定し、また前記同義語及び上位語を用いて、前記入力文を書くようするように構成される。
より具体的には、前記語義曖昧性解消モジュール603はさらに、前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される関連語決定ユニット6031と、前記関連語の1つ又は複数の上位語を決定するように構成される上位語決定ユニット6032と、前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される語義曖昧性解消ユニット6033とを含むように構成される。前記関連語決定ユニット6031はさらに、前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される。
また、本発明の実施例に係る語義拡張装置600はさらに訓練モジュール(図示せず)を含む。訓練モジュールは、訓練に用いられる訓練データをタグ付けし、前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される。
図7は本発明の実施例に係る語義拡張過程を図示する模式図である。具体的には、図7は図6に示される本発明の実施例に係る語義拡張装置600が図5に示される本発明の実施例に係る語義拡張方法を実行することを例として図示する。
図7に示すように、受信モジュール601は「オリンピックはそれぞれどのくらいの競技種目があるか」という入力文を受信する。
当該入力文は対象語決定モジュール602に入り、予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定する。この例では、対象語決定モジュール602は「オリンピックはそれぞれどのくらいの競技種目があるか」という入力文の「それぞれ」が曖昧性解消対象語であり、他の単語が非曖昧性単語であることを決定する。
対象語決定モジュール602は決定された曖昧性解消対象語である「それぞれ」を語義曖昧性解消モジュール603に提供する。語義曖昧性解消モジュール603は曖昧性解消対象語である「それぞれ」に対し、本発明の実施例に係る語義曖昧性解消方法を実行し、曖昧性解消対象語である「それぞれ」の語義を決定する。
語義曖昧性解消モジュール603で語義が決定された「それぞれ」及び対象語決定モジュール602で非曖昧性単語であることが決定された単語は語義拡張モジュール604に入る。語義拡張モジュール604「同義語辞林」は「オリンピックはそれぞれどのくらいの競技種目があるか」という入力文を拡張文の「[オリンピック|オリンピック スポーツ大会|<競技 競争 勝負 試合 競合>][それぞれ|手分け それぞれ 個別 各自 併存][ある|ある 持つ 保有 領有 所有]どのくらい[競技|競技 競争 勝負 試合 競合][種目|種類 類別 カテゴリー 類型 部類]?」に拡張する。
図8は本発明の実施例に係る語義曖昧性解消機器を図示するハードウェアブロック図である。図8に示すように、本発明の実施例に係る語義曖昧性解消機器800はプロセッサ801及びメモリ802を含む。前記メモリ802はコンピュータプログラム命令を格納するように構成され、前記コンピュータプログラム命令がプロセッサ801により実行される場合、上記の図面に示される語義曖昧性解消方法を実行する。
図9は本発明の実施例に係る語義拡張機器を図示するハードウェアブロック図である。図9に示すように、本発明の実施例に係る語義拡張機器900はプロセッサ901及びメモリ902を含む。前記メモリ902はコンピュータプログラム命令を格納するように構成され、前記コンピュータプログラム命令がプロセッサ901により実行される場合、上記の図面に示される語義曖昧性解消方法を実行する。
図10は本発明の実施例に係るコンピュータ読取可能な記憶媒体を図示する模式図である。図10に示すように、本発明の実施例に係るコンピュータ読取可能な記憶媒体1000にコンピュータプログラム命令1001が格納される。前記コンピュータプログラム命令1001はプロセッサにより実行される場合、上記の図面に示される本発明の実施例に係る語義曖昧性解消方法及び語義拡張方法を実行する。
以上、図面を参照し、本発明の実施例に係る語義曖昧性解消方法及び機器、当該語義曖昧性解消方法を用いる語義拡張方法及び装置を説明する。構文解析により曖昧性解消対象語の関連語を決定し、関連語をその上位語に拡張し、それにより関連語及びその上位語を考慮することで、曖昧性解消対象語の語義決定を実現し、訓練コーパスの大きさへの依存性を大きく軽減する。
以上、具体的な実施例を合わせて本発明の基本原理を説明したが、なお、本発明で言及された利点、優位性、効果などは制限ではなく例示的なものに過ぎず、これらの利点、優位性、効果などを本発明の各実施例が備えなければならないと考えてはいけない。なお、上記の公開された具体的な詳細は、制限ではなく単に例を上げて理解しやすいよう役割を果たすものであり、上記の詳細は本発明が上記の具体的な詳細を採用して実現しなければならないことを制限するものではない。
本発明に関わるデバイス、装置、機器、システムのブロック図は単に例示的なものとして、かつブロック図に示された方式に従って接続、配置、構成を行わなければならないことを意図的に要求又は暗示しない。当業者が認識するように、これらのデバイス、装置、機器、システムを任意の方法で接続、配置、構成することができる。「含む」、「含有する」、「備える」などの単語は、開放的なものであり、「含むがこれらに限定されない」という意味で、それと入れ替わるように用いることができる。ここで使用されている語彙「又は」と「及び」は単語の「及び/又は」をいい、かつコンテキストに明示されていない限り、それと入れ替わるように使用することができる。ここで使用されている語彙「例えば」はフレーズ「例えば、〜など」をいい、それと入れ替わるように使用することができる。
本発明の手順フローチャート及び上記の方法は単に例示的なものとして説明され、かつ各実施例のステップを与えられた順序で行わなければならないことを意図的に要求又は暗示せず、一部のステップは並行、互いに独立、又はその他の適当な順序で実行することができる。なお、「その後」、「そして」、「次は」などの単語は、意図せずにステップの順序を制限するものではなく、これらの単語はこれらの方法の説明を読み上げるためにのみ使用される。
なお、ここで用いたように、「少なくとも1つ」で始まる項の列挙で用いられる「又は」は、「A、B又はCの少なくとも1つ」の列挙がA又はB又はC、或いはAB又はAC又はBC、或いはABC(即ち、AとBとC)を意味するように分離された列挙を示す。また、文言の「例示的な」は、記述された例が好ましいもの又は他の例よりも優れたものを意味しない。
さらに、本発明の装置及び方法では、各部品又は各ステップは分解及び/又は再組合が可能であることも指摘しておく必要がある。これらの分解及び/又は再組合は本発明の同等方案と見なすべきである。
当業者にとっては、本発明の方法及び装置の全部又は一部を理解することができ、コンピューティングデバイス(プロセッサ、記憶媒体などを含む)又はコンピューティングデバイスのネットワークにおいても、ハードウェア、ファームウェア、ソフトウェア又はこれらの組合せにより実現することができる。前記ハードウェアはここで述べた機能を行うために設計された汎用プロセッサ、ディジタル信号プロセッサ(DSP)、ASIC、フィールドプログラマブルゲートアレイ信号(FPGA)又はその他のプログラマブル・ロジック・デバイス(PLD)、離散ゲート又はトランジスタロジック、離散ハードウェアコンポーネント又はその任意の組合せを利用することができる。汎用プロセッサはマイクロプロセッサでも構わないが、その代わりに、このプロセッサは市販で入手できる任意のプロセッサ、コントローラ、マイクロコントローラ又はステートマシンであってもよい。またプロセッサはDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと連携する1つ又は複数のマイクロプロセッサその他の構成など、コンピューティングデバイスの組み合わせとして実現することもできる。前記ソフトウェアはコンピュータで読み取り可能な任意形式の有形記憶媒体に存在することができる。このようなコンピュータで読み取り可能な有形記憶媒体は制限ではなく、例えば、RAM、ROM、EEPROM、CD−ROM又はその他の光ディスク記憶媒体、ディスク記憶媒体又はその他の磁気記憶装置、或いは命令や、データ構造に基づく所望のプログラムコードを格納又は保存できる、コンピュータによってアクセス可能なその他の有形記憶媒体を含むことができる。ここで使用されるディスクにはコンパクトディスク(CD)、レーザーディスク、光ディスク、デジタル汎用ディスク(DVD)、フロッピーディスクおよびブルーレイディスクが含まれる。
本発明に公開されている知能制御技術は、コンピューティングデバイス上で一つのプログラム又は一連のプログラムを実行することによっても実現することができる。前記コンピューティングデバイスは公知の汎用装置であってもよい。本発明で公開されているインテリジェント技術は前記方法又は装置を実現するためのプログラムコードを含むプログラム製品を提供することによりのみ実現するか、このようなプログラム製品が格納されている任意の記憶媒体により実現することができる。
添付された特許請求の範囲で定義された教示的な技術を逸脱することなく、ここで述べた技術に対する各種の変形、置換及び変更を行うことができる。また、本発明の請求範囲は上述した処理、機械、製造、イベントの構成、手段、方法及び動作の具体的な面に限定されない。ここで述べた態様においてほぼ同じの機能を実装するか、ほぼ同じの結果を実現する既存又は今後開発する処理、機械、製造、イベントの構成、手段、方法や動作を利用することができる。したがって、添付された特許請求の範囲はその範囲内にあるこのような処理、機械、製造、イベントの構成、手段、方法又は動作を含む。
当業者が本発明を作成又は使用できるように、公開された態様に関して上記の説明を提供する。これらの態様に対する各種の変更は当業者にとって非常に自明であり、かつここで定義した一般的な原理は本発明の範囲を逸脱せずに他の態様にも適用することができる。したがって、本発明はここで示された態様に限定されることを意図せず、ここで公開されている原理や新規特徴と一致する最も広い範囲に沿っている。
以上の記載は例示や説明の目的のために与えられている。また、この記載は本発明の実施例をここで公開する形式に制限する意図はない。以上、いくつかの例示と実施例について検討したが、当業者はいくつかの変形、修正、変更、追加及びサブコンビネーションを想到できる。
Claims (16)
- 入力文を受信するステップと、
予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語を決定するステップと、
前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップと、
前記関連語の1つ又は複数の上位語を決定するステップと、
前記関連語及び前記1つ又は複数の上位語の語形、品詞及び対象語との構文的関係に基づき、前記対象語の前記入力文における語義を決定するステップと、
を含む語義曖昧性解消方法。 - 前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップは、
前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定するステップと、
前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により、前記対象語の関連語を決定するステップと、
を含む請求項1に記載の語義曖昧性解消方法。 - 前記語義曖昧性解消方法を実行する語義曖昧性解消モジュールを事前に訓練することをさらに含み、前記語義曖昧性解消モジュールを訓練するステップは、
訓練用の訓練データをタグ付けするステップと、
前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得するステップと、
前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定するステップと、
前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定するステップと、
前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定するステップと、
前記訓練特徴を用いて前記語義曖昧性解消モジュールを訓練するステップと、
を含む請求項1又は2に記載の語義曖昧性解消方法。 - 入力文を受信するステップと、
予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定するステップと、
語義曖昧性解消モジュールを用いて前記曖昧性解消対象語の前記入力文における語義を決定するステップと、
予め決められた同義語シソーラスに基づき、前記非曖昧性単語及び前記曖昧性解消対象語の語義にそれぞれ対応する同義語及び上位語を決定するステップと、
前記同義語及び上位語を用いて前記入力文を拡張するステップと、を含み、
前記語義曖昧性解消モジュールを用いて前記曖昧性解消対象語の前記入力文における語義を決定するステップは、
前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップと、
前記関連語の1つ又は複数の上位語を決定するステップと、
前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するステップと、
を含む語義拡張方法。 - 前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するステップは、
前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定するステップと、
前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により、前記対象語の関連語を決定するステップと、
を含む請求項4に記載の語義拡張方法。 - 前記語義曖昧性解消方法を実行する語義曖昧性解消モジュールを事前に訓練することをさらに含み、前記語義曖昧性解消モジュールを訓練するステップは、
訓練に用いられる訓練データをタグ付けするステップと、
前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得するステップと、
前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定するステップと、
前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定するステップと、
前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定するステップと、
前記訓練特徴を用いて前記語義曖昧性解消モジュールを訓練するステップと、
を含む請求項1又は2に記載の語義曖昧性解消方法。 - 入力文を受信するように構成される受信ユニットと、
予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語を決定するように構成される対象語決定ユニットと、
前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される関連語決定ユニットと、
前記関連語の1つ又は複数の上位語を決定するように構成される上位語決定ユニットと、
前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される語義曖昧性解消ユニットと、
を含む語義曖昧性解消機器。 - 前記関連語決定ユニットはさらに、
前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される請求項7に記載の語義曖昧性解消機器。 - 訓練ユニットをさらに含み、当該訓練ユニットは、
訓練に用いられる訓練データをタグ付けし、
前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、
前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、
前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、
前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、
前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される請求項7又は8に記載の語義曖昧性解消機器。 - 入力文を受信するように構成される受信モジュールと、
予め決められた多義語シソーラスに基づき、前記入力文の曖昧性解消対象語及び非曖昧性単語を決定するように構成される対象語決定モジュールと、
前記曖昧性解消対象語の前記入力文における語義を決定するように構成される語義曖昧性解消モジュールと、
予め決められた同義語シソーラスに基づき、前記非曖昧性単語及び前記曖昧性解消対象語の語義にそれぞれ対応する同義語及び上位語を決定し、また前記同義語及び上位語を用いて、前記入力文を拡張するように構成される語義拡張モジュールと、を含み、
前記語義曖昧性解消モジュールはさらに、
前記入力文に対する構文解析及びコンテキストの情報解析に基づき、前記対象語の関連語を決定するように構成される関連語決定ユニットと、
前記関連語の1つ又は複数の上位語を決定するように構成される上位語決定ユニットと、
前記関連語及び前記1つ又は複数の上位語に基づき、前記対象語の前記入力文における語義を決定するように構成される語義曖昧性解消ユニットと、
を含むように構成される語義拡張装置。 - 前記関連語決定ユニットはさらに、
前記入力文の品詞解析用タグに基づき、前記入力文における各単語の品詞を決定し、かつ、前記品詞及び前記構文解析の結果、並びに対象語に対するコンテキスト解析などの結果に基づき、予め決められた規則により前記対象語の関連語を決定するように構成される請求項10に記載の語義拡張装置。 - 訓練モジュールをさらに含み、当該訓練モジュールは、
訓練に用いられる訓練データをタグ付けし、
前記訓練データに対してデータ処理を実行し、前記予め決められた多義語シソーラスを取得し、
前記訓練データにおける各訓練文に対し、前記予め決められた多義語シソーラスに基づき、前記各訓練文の曖昧性解消訓練対象語を決定し、
前記各訓練文に対する構文解析及びコンテキストの情報解析に基づき、前記訓練対象語の訓練関連語を決定し、
前記訓練対象語、前記訓練関連語、前記訓練対象語及び前記訓練関連語の上位語の語形、品詞及び対象語との構文的関係を訓練特徴として決定し、
前記訓練特徴を用いて前記語義曖昧性解消ユニットを訓練するように構成される請求項10又は11に記載の語義拡張装置。 - プロセッサと、
コンピュータプログラム命令を格納するように構成されるメモリと、を含み、
前記コンピュータプログラム命令が前記プロセッサにより実行される場合、前記プロセッサが請求項1又は2に記載の語義曖昧性解消方法を実行する語義曖昧性解消機器。 - プロセッサと、
コンピュータプログラム命令を格納するように構成されるメモリと、を含み、
前記コンピュータプログラム命令が前記プロセッサにより実行される場合、前記プロセッサが請求項4又は5に記載の語義拡張方法を実行する語義曖昧性解消機器。 - コンピュータプログラム命令が格納されるコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、前記プロセッサが請求項1又は2に記載の語義曖昧性解消方法を実行するコンピュータ読取可能な記憶媒体。
- コンピュータ読取可能な記憶媒体であって、前記コンピュータ読取可能な記憶媒体にコンピュータプログラム命令が格納され、前記コンピュータプログラム命令がプロセッサにより実行される場合、前記プロセッサが請求項4又は5に記載の語義拡張方法を実行するコンピュータ読取可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711048364.7 | 2017-10-31 | ||
CN201711048364.7A CN109726385A (zh) | 2017-10-31 | 2017-10-31 | 词义消歧方法和设备、词义扩展方法和装置 |
PCT/CN2018/104334 WO2019085640A1 (zh) | 2017-10-31 | 2018-09-06 | 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021501420A true JP2021501420A (ja) | 2021-01-14 |
Family
ID=66293105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020524159A Pending JP2021501420A (ja) | 2017-10-31 | 2018-09-06 | 語義曖昧性解消方法及び装置、語義拡張方法、装置及び機器、コンピュータ読取可能な記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2021501420A (ja) |
CN (2) | CN109726385A (ja) |
WO (1) | WO2019085640A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134955A (zh) * | 2019-05-14 | 2019-08-16 | 中电协通科技(张家口)有限公司 | 一种语义处理方法 |
CN110309318B (zh) * | 2019-05-29 | 2022-11-29 | 西安电子科技大学 | 信息通信网络的意图表征系统及方法、信息数据处理终端 |
CN110321434A (zh) * | 2019-06-27 | 2019-10-11 | 厦门美域中央信息科技有限公司 | 一种基于词义消歧卷积神经网络的文本分类方法 |
CN111199149B (zh) * | 2019-12-17 | 2023-10-20 | 航天信息股份有限公司 | 一种对话系统的语句智能澄清方法及系统 |
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
CN111310481B (zh) * | 2020-01-19 | 2021-05-18 | 百度在线网络技术(北京)有限公司 | 语音翻译方法、装置、计算机设备和存储介质 |
CN111310475B (zh) * | 2020-02-04 | 2023-03-10 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN111414523A (zh) * | 2020-03-11 | 2020-07-14 | 中国建设银行股份有限公司 | 一种数据获取方法和装置 |
CN111737972A (zh) * | 2020-05-20 | 2020-10-02 | 华为技术有限公司 | 人机交互系统中实现自然语言理解的方法和装置 |
CN112580335B (zh) * | 2020-12-28 | 2023-03-24 | 建信金融科技有限责任公司 | 多音字消歧方法及装置 |
CN113204962A (zh) * | 2021-05-31 | 2021-08-03 | 平安科技(深圳)有限公司 | 基于图扩展结构的词义消歧方法、装置、设备及介质 |
CN113704416B (zh) * | 2021-10-26 | 2022-03-04 | 深圳市北科瑞声科技股份有限公司 | 词义消歧方法、装置、电子设备及计算机可读存储介质 |
CN115204182B (zh) * | 2022-09-09 | 2022-11-25 | 山东天成书业有限公司 | 一种待校对电子书数据的识别方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8504355B2 (en) * | 2009-11-20 | 2013-08-06 | Clausal Computing Oy | Joint disambiguation of syntactic and semantic ambiguity |
CN102306144B (zh) * | 2011-07-18 | 2013-05-08 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
CN105718442A (zh) * | 2016-01-19 | 2016-06-29 | 齐鲁工业大学 | 一种基于句法分析的词义消歧方法 |
CN106202036B (zh) * | 2016-06-29 | 2019-05-21 | 齐鲁工业大学 | 一种基于依存约束和知识的动词词义消歧方法和装置 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
-
2017
- 2017-10-31 CN CN201711048364.7A patent/CN109726385A/zh active Pending
-
2018
- 2018-09-06 CN CN201880071178.1A patent/CN111295661A/zh active Pending
- 2018-09-06 JP JP2020524159A patent/JP2021501420A/ja active Pending
- 2018-09-06 WO PCT/CN2018/104334 patent/WO2019085640A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019085640A1 (zh) | 2019-05-09 |
CN111295661A (zh) | 2020-06-16 |
CN109726385A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021501420A (ja) | 語義曖昧性解消方法及び装置、語義拡張方法、装置及び機器、コンピュータ読取可能な記憶媒体 | |
WO2017017527A1 (en) | Method and device for machine translation | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
US9141601B2 (en) | Learning device, determination device, learning method, determination method, and computer program product | |
US9734238B2 (en) | Context based passage retreival and scoring in a question answering system | |
Sasaki et al. | How to make the most of NE dictionaries in statistical NER | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
Han | Machine translation evaluation resources and methods: A survey | |
Han et al. | Machine translation evaluation: A survey | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
Farahmand et al. | A supervised model for extraction of multiword expressions, based on statistical context features | |
Nararatwong et al. | Improving Thai word and sentence segmentation using linguistic knowledge | |
EP3404553A1 (en) | Open information extraction method and system for extracting reified ternary relationship | |
Tambouratzis et al. | Language-independent hybrid MT with PRESEMT | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
Pham et al. | A hybrid approach for biomedical event extraction | |
Simionescu | Graphical grammar studio as a constraint grammar solution for part of speech tagging | |
US20200089697A1 (en) | System and method for parsing user query | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
US20230136889A1 (en) | Fine-grained concept identification for open information knowledge graph population | |
Flannery et al. | A pointwise approach to training dependency parsers from partially annotated corpora | |
Nanda | The named entity recognizer framework | |
Huang et al. | A simple, straightforward and effective model for joint bilingual terms detection and word alignment in SMT | |
Jiang et al. | Automatic adaptation of annotations | |
Tambouratzis et al. | Machine Translation with Minimal Reliance on Parallel Resources |