JP2021039727A - テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体 - Google Patents

テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2021039727A
JP2021039727A JP2020085110A JP2020085110A JP2021039727A JP 2021039727 A JP2021039727 A JP 2021039727A JP 2020085110 A JP2020085110 A JP 2020085110A JP 2020085110 A JP2020085110 A JP 2020085110A JP 2021039727 A JP2021039727 A JP 2021039727A
Authority
JP
Japan
Prior art keywords
text
processing
result
preprocessing
input text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020085110A
Other languages
English (en)
Inventor
スー リー
Li Xu
スー リー
ミンジャン リー
Mingjiang Li
ミンジャン リー
ペンフェィ ワン
Pengfei Wang
ペンフェィ ワン
シーマン ジャン
Shimang Jiang
シーマン ジャン
アンシン リー
Anxin Li
アンシン リー
シンユ グオ
xin yu Guo
シンユ グオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2021039727A publication Critical patent/JP2021039727A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得ることができるニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。【解決手段】テキスト処理方法は、入力テキストを取得するステップと、入力テキストに対して第1テキスト処理を行い、入力テキストの第1前処理結果を取得するステップと、入力テキストに対して第2テキスト処理を行い、入力テキストの第2前処理結果を取得するステップと、第1前処理結果と第2前処理結果とに基づいて、入力テキストの処理結果を生成するステップと、を含む。第1テキスト処理は、深層学習に基づく分類処理であり、第2テキスト処理は、統計的学習に基づく分類処理である。【選択図】図2

Description

本願は、自然言語処理分野に関し、具体的には、ニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体に関する。
自然言語処理(NLP)は、人工知能技術の重要な応用分野の1つである。コンピュータは、自然言語処理によって、人間のように文字を閲覧して、文字の背後にある意味を理解することができ、それにより、機械翻訳、自動質問応答、情報検索、感情解析、テキスト自動要約などの具体的な応用を完了する。コンピュータが人間のテキストを理解するようにさせるために、コンピュータに単語のそれぞれの意味を正確に把握させる必要がある。したがって、自然言語処理で、単語分割技術は、非常に基本的なモジュールである。
従来の単語分割方法は、主に、統計的学習に基づく単語分割方法と、深層学習に基づく単語分割方法と、を含む。統計的学習に基づく単語分割方法は、例えば、隠れマルコフモデル(Hiden Markov Model、HMM)、Nグラムモデル(N−gram)、最大エントロピーモデル(ME)、条件付き確率場モデル(Conditional Random Fields、CRF)などに基づく単語分割方法を含む。統計的学習に基づく単語分割方法は、一般的に、高い汎化性を有するが、単語分割性能が限られる(例えば、F1点数が低い)。深層学習に基づく単語分割方法は、例えば、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、長・短期記憶(LSTM)ニューラルネットワークなどを用いる単語分割方法を含む。深層学習に基づく単語分割方法は、十分なトレーニング言語資料データがある場合、単語分割性能が統計的学習に基づく単語分割方法より優れるが、トレーニング言語資料データが不足である場合、単語分割性能が急速に低下してしまう。したがって、異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得ることが望まれている。
上記問題に鑑みて、本開示は、ニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一形態によれば、入力テキストを取得するための受信ユニットと、前記入力テキストに対して第1テキスト処理を行い、前記入力テキストの第1前処理結果を取得するための第1処理ユニットと、前記入力テキストに対して第2テキスト処理を行い、前記入力テキストの第2前処理結果を取得するための第2処理ユニットと、前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するための処理結果生成ユニットと、を含み、前記第1テキスト処理は、深層学習に基づく分類処理であり、前記第2テキスト処理は、統計的学習に基づく分類処理である、ニューラルネットワークに基づくテキスト処理装置が提供される。
また、本開示の一形態に係るテキスト処理装置であって、前記処理結果出力ユニットは、前記第1前処理結果と前記第2前処理結果とが同一であるか否かを判断するための判断ユニットと、前記第1前処理結果と前記第2前処理結果とが同一である場合、同一の前記第1前処理結果と前記第2前処理結果とを前記処理結果とし、前記第1前処理結果と前記第2前処理結果とが異なる場合、異なる前記第1前処理結果と前記第2前処理結果とに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成するための第3処理ユニットと、を含み、前記第3テキスト処理は、サポートベクタマシンに基づく分類処理である。
また、本開示の一形態に係るテキスト処理装置であって、前記第1テキスト処理を行う第1処理ユニット及び前記第2テキスト処理を行う第2処理ユニットを第1コーパスでトレーニングし、前記第3テキスト処理を行う第3処理ユニットを第2コーパスでトレーニングするためのトレーニングユニットをさらに含み、前記第1コーパスに含まれる言語資料の数が、前記第2コーパスに含まれる言語資料の数よりも多い。
また、本開示の一形態に係るテキスト処理装置であって、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するための出力ユニットをさらに含み、前記第1前処理結果、前記第2前処理結果及び前記第3処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである。
本開示の別の一態様によれば、入力テキストを取得するステップと、前記入力テキストに対して第1テキスト処理を行い、前記入力テキストの第1前処理結果を取得するステップと、前記入力テキストに対して第2テキスト処理を行い、前記入力テキストの第2前処理結果を取得するステップと、前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップと、を含み、前記第1テキスト処理は、深層学習に基づく分類処理であり、前記第2テキスト処理は、統計的学習に基づく分類処理である、ニューラルネットワークに基づくテキスト処理方法が提供される。
また、本開示の別の一態様に係るテキスト処理方法であって、前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップは、前記第1前処理結果と前記第2前処理結果とが同一であるか否かを判断するステップと、前記第1前処理結果と前記第2前処理結果とが同一である場合、同一の前記第1前処理結果と前記第2前処理結果とを前記処理結果とするステップと、前記第1前処理結果と前記第2前処理結果とが異なる場合、異なる前記第1前処理結果と前記第2前処理結果とに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成するステップと、を含み、前記第3テキスト処理は、サポートベクタマシンに基づく分類処理である。
また、本開示の別の一態様に係るテキスト処理方法であって、前記第1テキスト処理を行う第1処理ユニット及び前記第2テキスト処理を行う第2処理ユニットを第1コーパスでトレーニングするステップと、前記第3テキスト処理を行う第3処理ユニットを第2コーパスでトレーニングするステップと、をさらに含み、前記第1コーパスに含まれる言語資料の数が、前記第2コーパスに含まれる言語資料の数よりも多い。
また、本開示の別の一態様に係るテキスト処理方法であって、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成することをさらに含み、前記第1前処理結果、前記第2前処理結果及び前記第3処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである。
本開示のまた別の一態様によれば、プロセッサと、コンピュータプログラム命令を記憶するためのストレージと、を含み、前記コンピュータプログラム命令が前記プロセッサによってロードされて実行されるとき、前記プロセッサが上述したテキスト処理方法を実行する、電子機器が提供される。
本開示のさらに別の一態様によれば、コンピュータプログラム命令が記憶され、前記コンピュータプログラム命令がプロセッサによってロードされて実行されるとき、前記プロセッサが上述したテキスト処理方法を実行する、コンピュータ読み取り可能な記憶媒体が提供される。
以下、詳細に説明されるように、本開示の実施例に係るニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体は、異なる単語分割方法の利点を融合し、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得る。
なお、以上の一般的な説明及び以下の詳細な説明は、いずれも、例示的なものであり、特許を請求する技術に対する更なる説明を提供するために意図されたものである。
本開示の上記及び他の目的、特徴及び利点は、図面を参照して本開示の実施例についてさらに詳細に説明することによって、より明らかになる。図面は、本開示の実施例に対するさらなる理解を提供するためのものであり、明細書の一部を構成し、本開示の実施例とともに本開示を解釈し、本開示に対する限定を構成するものではない。図面において、同じ参照符号は、一般的に同じ部材又はステップを示すものである。
本開示の実施例に係るテキスト処理方法の応用シナリオを概説する模式図である。 本開示の実施例に係るテキスト処理方法を示すフローチャートである。 本開示の実施例に係るテキスト処理方法をさらに示すフローチャートである。 本開示の実施例に係るテキスト処理装置を示すブロック図である。 本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すフローチャートである。 本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。 本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。 本開示の実施例に係る電子機器を示すハードウェアブロック図である。 本開示の実施例に係るコンピュータ読み取り可能な記憶媒体を示す模式図である。
本開示の目的、技術案及び利点をさらに明瞭にするために、以下、図面を参照して、本開示の例示的な実施例について詳細に説明する。明らかなように、説明される実施例は、本開示の一部の実施例にすぎず、本開示のすべての実施例ではない。本開示は、ここで説明される例示的な実施例で限定されないことを理解すべきである。
まず、図1を参照して、本開示の実施例に係るテキスト処理方法の応用シナリオを説明する。
図1は、本開示の実施例に係るテキスト処理方法の応用シナリオを概説する模式図である。図1に示すように、本開示の実施例に係るテキスト処理方法は、自然言語処理システム10に適用することができる。自然言語処理システム10には、自然言語処理装置100が配置される。自然言語処理装置100は、通信ネットワーク103を介してユーザー101a〜101cそれぞれのユーザー機器102a〜102cとデータ通信を実行する。
自然言語処理システム10は、例えば、スマートカスタマーサービスシステムであってもよい。スマートカスタマーサービスシステムは、自然言語理解の意味検索技術、マルチチャンネル知識サービス技術及び大規模知識ベースの構築技術を融合し、ユーザーに最も自然な方式で自分の情報又は知識ニーズを表現させ、ユーザーに最もほしい正確な情報をフィードバックすることができる必要がある。したがって、スマートカスタマーサービスシステムの最も重要なタスクは、ユーザーの問い合わせ問題に対して自然言語解析を行い、問い合わせ問題の意味及び他の均等の問い合わせ質問を決定し、この後、知識ベースに対する検索によって、ユーザーに問い合わせ問題の正確な答えをフィードバックすることである。
また、上記した自然言語処理システム10は、さらに、例えば、スマートチャットロボットシステムであってもよい。スマートチャットロボットシステムがユーザーとリアルタイムにインタラクティブチャットを行う過程で、最も重要なタスクも、ユーザーのチャットコンテンツに対して自然言語解析を行い、チャットコンテンツの意味及び他の均等コンテンツを決定し、この後、知識ベースに対する検索によって、ユーザーにチャットコンテンツに対する適切な回答をフィードバックすることである。
自然言語処理装置100は、例えば、検索エンジンサーバ、コンテンツ提供サーバなどの、ビッグデータ処理能力及び大容量データ記憶能力が配置されるサーバ装置を含むがこれらに限られない。ユーザー機器102a〜102cは、ノートコンピュータ、デスクトップコンピュータ、スマートフォン、タブレットコンピュータなどの、データ処理能力を有する移動端末又は固定端末を含むがこれらに限られない。通信ネットワーク103は、例えば、転送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザーデータグラムプロトコル(UDP)、ハイパーテキスト・トランスファー・プロトコル(HTTP)及び/又はファイル転送プロトコル(FTP)にしたがって配置されるインターネット、IPTVネットワーク、ワイヤレスフィデリティ(Wi−Fi)ネットワーク、無線ローカルエリアネットワーク(WLAN)、ローカルエリアネットワーク(LAN)及び/又はメトロポリタンエリアネットワーク(MAN)などを含むがこれらに限られない。
本開示の一実施例では、自然言語処理装置100は、例えば、検索エンジンサーバである。自然言語処理装置100は、ユーザー機器102a〜102cによって通信ネットワーク103を介して提出される問題を受信し、問題と自装置からのドキュメントに対する理解に基づいて、ユーザー101a〜101cに自動的に答えを提供する。
本開示の別の一実施例では、自然言語処理装置100は、さらに、例えば、機械翻訳装置、感情解析装置、テキスト自動要約装置などであってもよい。
以下、説明されるとおり、本開示の実施例に係るテキスト処理装置は、本開示の実施例に係るテキスト処理方法を実行するために、自然言語処理装置100に配置されてもよい。具体的には、本開示の実施例に係るテキスト処理方法は、自然言語処理のうちの単語分割処理を実行するためのものであってもよい。
以下、図2〜図4を参照しながら、本開示の実施例に係るテキスト処理装置及び方法について説明する。図2は、本開示の実施例に係るテキスト処理方法を示すフローチャートであり、図3は、本開示の実施例に係るテキスト処理方法をさらに示すフローチャートであり、図4は、本開示の実施例に係るテキスト処理装置を示すブロック図である。
図2に示すように、本開示の実施例に係るテキスト処理方法は、以下のステップを含む。
ステップS201で、入力テキストを取得する。本開示の一実施例では、ユーザーがキーボードなどの入力機器を介して入力するテキストデータを受信してもよく、又は、ユーザーが入力する音声データを受信し、次に、音声認識と変換によって音声データをテキストデータに変換してもよい。代替的には、ローカルに記憶されるテキストデータを読み取り、又は、外部から転送されるテキストデータを、通信ネットワークを経由して受信してもよい。後続のステップで、取得される入力テキストに対してテキスト処理を実行する。具体的には、本開示の一実施例では、取得される入力テキストに対して単語分割処理を実行する。本開示の実施例に係るテキスト処理は、単語分割処理に限られず、例えば、名前付きエンティティの認識、品詞タグ付け、構文解析、意味解析、文章解析などを含んでもよいことは、容易に理解され得る。
ステップS202で、入力テキスト情報に対して第1テキスト処理を行い、入力テキストの第1前処理結果を取得する。本開示の一実施例では、前記第1テキスト処理は、深層学習に基づく分類処理である。例えば、前記第1テキスト処理は、例えば、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、長・短期記憶(LSTM)ニューラルネットワークなどを用いて入力テキスト情報に対して実行されるものである。
具体的には、前記第1テキスト処理は、畳み込みニューラルネットワーク(CNN)を用いる単語分割処理である。畳み込みニューラルネットワーク(CNN)を用いる単語分割処理で、まず、入力テキスト情報の文字のそれぞれに対してベクトル化表現を実行し、例えば、入力テキスト情報に対してワンホット表現(One−hot Representation)を実行する。この後、ベクトル化表現されるテキスト情報に対して各畳み込み層を用いて特徴を抽出する。最後に、ビタビ(Viterbi)アルゴリズムを用いて入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を取得する。単語分割処理の場合、文字のそれぞれのラベルは、{B,M,E,S}という4つのクラスを含み、Bは、単語における開始文字を代表し、Mは、単語における途中文字を代表し、Eは、単語における終わり文字を代表し、Sは、1文字からなる単語を代表する。このように取得される入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を、入力テキストの第1前処理結果とする。
ステップS203で、入力テキスト情報に対して第2テキスト処理を行い、入力テキストの第2前処理結果を取得する。本開示の一実施例では、前記第2テキスト処理は、統計的学習に基づく分類処理である。例えば、前記第2テキスト処理は、例えば、隠れマルコフモデル(Hiden Markov Model、HMM)、Nグラムモデル(N−gram)、最大エントロピーモデル(ME)、条件付き確率場モデル(Conditional Random Fields、CRF)などを用いて入力テキスト情報に対して実行されるものである。
具体的には、前記第2テキスト処理は、隠れマルコフモデル(HMM)を用いる単語分割処理である。隠れマルコフモデルは、初期状態確率分布π、状態転移確率分布A及び観測確率分布Bによって決定される。1)任意時点tの状態が前の時点の状態にしか依存せず、その他の時点の状態と観測シーケンスに関係ない仮定、2)任意時点の観測が該時点のマルコフ状態にしか依存せず、その他の観測、状態に関係ない仮定、といった2つの仮定が存在する。状態値集合Qを{B,M,E,S}にし、B、M、E、Sの意味を上記のようにする。観測シーケンスを文とする。HMMによって求解して観測シーケンスに対応する状態シーケンスを得る。このように取得される入力テキスト情報の文字のそれぞれが対応するラベルに属する確率を、入力テキストの第2前処理結果とする。
深層学習に基づいて取得される第1前処理結果又は統計的学習に基づいて取得される第2前処理結果を直接単語分割用の処理結果とするステップとは異なって、本開示の実施例によれば、さらに、ステップS204で前記第1前処理結果と前記第2前処理結果との両方に基づいて、前記入力テキストの処理結果を生成する。
図3は、本開示の実施例に係るテキスト処理方法をさらに示すフローチャートである。図3に示すステップS301〜S303は、図2に示すステップS201〜S203と同一であり、ここでその繰り返し説明が省略される。
ステップS303の後、深層学習に基づいて第1前処理結果を取得し、統計的学習に基づいて第2前処理結果を取得しており、処理がステップS304に進む。
ステップS304で、第1前処理結果と第2前処理結果とが同一であるか否かを判断する。
第1前処理結果と第2前処理結果における、1つの文字に対して取得されるラベル{B,M,E,S}シーケンスのうちの最大可能なラベルが同一である場合、例えば、第1前処理結果{B 0.5,M 0.1,E 0.2,S 0.2}と第2前処理結果{B 0.4,M 0.2,E 0.2,S 0.2}とが、いずれも該文字がBラベルの確率が最大であることを示す場合、該文字に対する第1前処理結果と第2前処理結果とが同一であると考え、処理がステップS305に進む。
ステップS305で、同一の第1前処理結果と第2前処理結果とを最終的な処理結果とする。
これと異なって、第1前処理結果と第2前処理結果における、1つの文字に対して取得されるラベル{B,M,E,S}シーケンスのうちの最大可能なラベルが同一ではない場合、例えば、第1前処理結果{B 0.5,M 0.1,E 0.2,S 0.2}が、該文字がBラベルの確率が最大であることを示すが、第2前処理結果{B 0.2,M 0.4,E 0.2,S 0.2}が、該文字がMラベルの確率が最大であることを示す場合、該文字に対する第1前処理結果と第2前処理結果とが異なると考え、処理がステップS306に進む。
ステップS306で、異なる前記第1前処理結果と前記第2前処理結果とに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成する。
本開示の一実施例では、前記第3テキスト処理は、サポートベクタマシンに基づく分類処理である。前記第3テキスト処理で、異なる前記第1前処理結果と前記第2前処理結果とを前記第3テキスト処理の入力とする。例えば、{B 0.5,M 0.1,E 0.2,S 0.2}と{B 0.2,M 0.4,E 0.2,S 0.2}とを特徴ベクトルとし、入力される特徴ベクトルをサポートベクタマシンの分類処理でさらに分類して前記入力テキストの最終処理結果を取得する。
ステップS307で、前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成する。
本開示の一実施例では、前記出力テキストは、前記入力テキストに対応する単語分割テキストである。例えば、入力テキストが「今天天気不錯」であり、前記処理による結果が「B E B E B E」であり、入力テキストに対応する単語分割テキストが「今天/天気/不錯」である。
図4は、本開示の実施例に係るテキスト処理装置を示すブロック図である。図4に示すように、本開示の実施例に係るテキスト処理装置400は、入力ユニット401と、第1処理ユニット402と、第2処理ユニット403と、処理結果生成ユニット404と、出力ユニット405と、を含む。処理結果生成ユニット404は、判断ユニット4041と、第3処理ユニット4042とをさらに含む。また、図4に示されていないが、本開示の実施例に係るテキスト処理装置400は、トレーニングユニット406をさらに含んでもよい(図6A及び6Bに示す)。これらのユニットモジュールが、ハードウェア単独で、ソフトウェア単独で、又はそれらの組み合わせにより、様々な形態で実現することができ、本開示がそれらのいずれかに限定されないことは、当業者に認識され得る。
入力ユニット401は、入力テキストTINを取得するために用いられる。本開示の一実施例では、入力ユニット401は、ユーザーがキーボードなどの入力機器を介して入力するテキストデータを受信してもよく、又は、ユーザーが入力する音声データを受信し、次に、音声認識と変換によって音声データをテキストデータに変換してもよい。代替的には、入力ユニット401は、ローカルに記憶されるテキストデータを読み取り、又は、外部から転送されるテキストデータを、通信ネットワークを経由して受信してもよい。後続のステップで、取得される入力テキストに対してテキスト処理を実行する。具体的には、本開示の一実施例では、取得される入力テキストに対して単語分割処理を実行する。本開示の実施例に係るテキスト処理は、単語分割処理に限られず、例えば、名前付きエンティティの認識、品詞タグ付け、構文解析、意味解析、文章解析などを含んでもよいことは、容易に理解され得る。
第1処理ユニット402は、入力テキスト情報TINに対して第1テキスト処理を行い、入力テキストの第1前処理結果Rを取得するために用いられる。本開示の一実施例では、第1処理ユニット402は、深層学習に基づく分類処理を実行する。例えば、第1処理ユニット402は、例えば、畳み込みニューラルネットワーク(CNN)、回帰型ニューラルネットワーク(RNN)、長・短期記憶(LSTM)ニューラルネットワークなどを用いて入力テキスト情報に対して第1テキスト処理を実行する。
第2処理ユニット403は、入力テキスト情報に対して第2テキスト処理を行い、入力テキストの第2前処理結果Rを取得するために用いられる。本開示の一実施例では、第2処理ユニット403は、統計的学習に基づく分類処理を実行する。例えば、第2処理ユニット403は、例えば、隠れマルコフモデル(Hiden Markov Model、HMM)、Nグラムモデル(N−gram)、最大エントロピーモデル(ME)、条件付き確率場モデル(Conditional Random Fields、CRF)などを用いて入力テキスト情報に対して第2テキスト処理を実行する。
処理結果生成ユニット404は、前記第1前処理結果と前記第2前処理結果との両方に基づいて、前記入力テキストの処理結果を生成するために用いられる。
具体的には、処理結果生成ユニット404における判断ユニット4041は、第1前処理結果Rと第2前処理結果Rとが同一であるか否かを判断する。第1前処理結果と第2前処理結果における、1つの文字に対して取得されるラベル{B,M,E,S}シーケンスのうちの最大可能なラベルが同一である場合、例えば、第1前処理結果{B 0.5,M 0.1,E 0.2,S 0.2}と第2前処理結果{B 0.4,M 0.2,E 0.2,S 0.2}とが、いずれも該文字がBラベルの確率が最大であることを示す場合、ユニット4041は、該文字に対する第1前処理結果と第2前処理結果とが同一であると考える。この場合、判断ユニット4041は、同一の第1前処理結果Rと第2前処理結果Rとを最終的な処理結果として出力ユニット405に提供する。
第1前処理結果Rと第2前処理結果Rとにおいて、1つの文字に対して取得されるラベル{B,M,E,S}シーケンスのうちの最大可能なラベルが同一ではない場合、例えば、第1前処理結果{B 0.5,M 0.1,E 0.2,S 0.2}が、該文字がBラベルの確率が最大であることを示すが、第2前処理結果{B 0.2,M 0.4,E 0.2,S 0.2}が、該文字がMラベルの確率が最大であることを示す場合、判断ユニット4041は、該文字に対する第1前処理結果Rと第2前処理結果Rとが異なると考える。この場合、判断ユニット4041は、異なる第1前処理結果Rと第2前処理結果Rとを第3処理ユニット4042に提供する。
第3処理ユニット4042は、異なる前記第1前処理結果Rと前記第2前処理結果Rとに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成する。
本開示の一実施例では、第3処理ユニット4042は、サポートベクタマシンに基づく分類処理を実行する。第3処理ユニット4042は、{B 0.5,M 0.1,E 0.2,S 0.2}と{B 0.2,M 0.4,E 0.2,S 0.2}とを特徴ベクトルとし、入力される特徴ベクトルをサポートベクタマシンの分類処理でさらに分類して前記入力テキストの最終処理結果を取得する。
出力ユニット405は、前記処理結果に基づいて前記入力テキストに対応する出力テキストTOUTを生成するために用いられる。本開示の一実施例では、前記出力テキストTOUTは、前記入力テキストTINに対応する単語分割テキストである。例えば、入力テキストTINが「今天天気不錯」であり、前記処理による結果が「B E B E B E」であり、入力テキストTINに対応する単語分割テキストTOUTが「今天/天気/不錯」である。
図2〜4を参照して上述した本開示の実施例に係るテキスト処理方法及び装置は、異なる単語分割方法の利点を融合することで、異なる単語分割方法による結果が同一の場合、該同一の結果を直接用いて処理時間を節約する。異なる単語分割方法による結果が異なる場合、さらにライト級の第3分類器を用いて異なる単語分割方法の結果に対して再び分類処理を行い、それにより、異なる単語分割方法に比べてより高精度な単語分割効果を確保する。
以下、図5〜図6Bを参照して本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを説明する。図5は、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すフローチャートであり、図6A及び6Bは、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスを示すブロック図である。
図5に示すように、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスは、以下のステップを含む。
ステップS501で、前記第1テキスト処理を行う第1処理ユニットを第1コーパスでトレーニングする。
ステップS502で、前記第2テキスト処理を行う第2処理ユニットを第1コーパスでトレーニングする。
ステップS503で、前記第3テキスト処理を行う第3処理ユニットを第2コーパスでトレーニングする。
具体的には、本開示の実施例に係るテキスト処理方法におけるトレーニングプロセスは、図6Aに示す、第1処理ユニット402及び第2処理ユニット403に対する第1トレーニング段階と、図6Bに示す、第3処理ユニット4042に対する第2トレーニング段階と、を含む。
図6Aに示すように、第1トレーニング段階で、トレーニングユニット406は、第1コーパスC1で第1処理ユニット402及び第2処理ユニット403に対してトレーニングを実行し、トレーニング終了条件を満たす第1処理ユニット402及び第2処理ユニット403を取得する。第1処理ユニット402及び第2処理ユニット403をトレーニングするためのコーパスは、言語資料の数が、第2トレーニング段階で第3処理ユニット4042をトレーニングするためのコーパスに含まれる言語資料の数よりも多いことを満たせば、異なってもよいことは、容易に理解され得る。
図6Bに示すように、第2トレーニング段階で、トレーニングユニット406は、第2コーパスC2で第3処理ユニット4042に対してトレーニングを実行する。第1処理ユニット402及び第2処理ユニット403は、第2コーパスC2の言語資料に対してそれぞれ前処理結果RC21及びRC22を生成し、前処理結果RC21及びRC22を入力として第2コーパスC2と共同で第3処理ユニット4042をトレーニングし、トレーニング終了条件を満たす第3処理ユニット4042を取得する。
上述したように、本開示の実施例に係るテキスト処理方法及び装置は、異なる単語分割方法を融合することで、より高精度な単語分割効果を実現することだけではなく、さらに、トレーニング過程で第1処理ユニット及び第2処理ユニットのみを比較的大きなコーパスでトレーニングし、第3処理ユニットを比較的小さなコーパスでトレーニングすればよく、トレーニング言語資料が少ない特定分野への適応を実現することができる。
なお、上記実施形態の説明で用いられるブロック図は、機能単位のブロックを示す。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は、特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合される1つの装置によって実現されてもよいし、物理的及び/又は論理的に分離される2つ以上の装置によって直接的及び/又は間接的に(例えば、有線及び/又は無線)接続し、上記複数装置により実現されてもよい。
例えば、本発明の1つの実施形態における電子機器は、本発明のテキスト処理方法の処理を実行するコンピュータとして機能してもよい。図7は、本開示の実施例に係る電子機器を示すハードウェアブロック図である。図7に示すように、電子機器700は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などのコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、機器、ユニットなどに置き換えることができる。電子機器700のハードウェア構造は、図に示す各装置を1つ以上含んでもよいし、一部の装置を含まなくてもよい。
例えば、プロセッサ1001は、1つだけ示されてもよいが、複数であってもよい。また、1つのプロセッサによって処理を実行してもよいし、1つ以上のプロセッサによって同時、順次、又は他の方法で処理を実行してもよい。なお、プロセッサ1001は、1つ以上のチップで実装されてもよい。
電子機器700における各機能は、例えば、以下の形態で実現される。予め決定されたソフトウェア(プログラム)をプロセッサ1001、メモリ1002などのハードウェア上に読み込ませることで、プロセッサ1001が演算し、通信装置1004による通信を制御し、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御する。
プロセッサ1001は、例えば、オペレーティングシステムを動作させることで、コンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどの中央処理装置(CPU、Central Processing Unit)で構成されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上記実施形態で説明した動作のうちの少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器10の制御ユニット401は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても、同様に実現されてもよい。
メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、読み出し専用メモリ(ROM、Read Only Memory)、プログラマブル読み出し専用メモリ(EPROM、Erasable Programmable ROM)、電気的にプログラム可能な読み出し専用メモリ(EEPROM、Electrically EPROM)、ランダムアクセスストレージ(RAM、Random Access Memory)、その他の適切な記憶媒体のうちの少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本発明の一実施形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを格納することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク(flexible disk)、フロッピー(登録商標)ディスク(floppy disk)、光磁気ディスク(例えば、リードオンリーディスク(CD−ROM(Compact Disc ROM)など)、デジタル多用途ディスク、ブルーレイ(Blu−ray(登録商標)ディスク)、リムーバブルディスク、ハードディスクドライバ、スマートカード、フラッシュストレージデバイス(例えば、カード、スティック(stick)、キドライバ(key driver))、磁気ストリップ、データベース、サーバその他の適切な記憶媒体のうちの少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信機器)であり、例えば、ネットワーク機器、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力機器(例えば、キーボード、マウス、マイクロホン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実装する出力機器(例えば、ディスプレイ、スピーカ、発光ダイオード(LED、Light Emitting Diode)ランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構造(例えば、タッチパネル)であってもよい。
また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、電子機器700は、マイクロプロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、専用集積回路(ASIC、Application Specific Integrated Circuit)、プログラマブルロジック機器(PLD、Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)などのハードウェアを含んでもよく、該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令集合、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、ステップ、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、転送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL、Digital Subscriber Line)など)及び/又は無線技術(赤外線、マイクロ波など)を使用してウエブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、転送媒体の定義内に含まれる。
図8は、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体を示す模式図である。図8に示すように、本開示の実施例に係るコンピュータ読み取り可能な記憶媒体800には、コンピュータプログラム命令801が記憶される。前記コンピュータプログラム命令801がプロセッサによって実行されるとき、上述したテキスト処理方法を実行する。前記コンピュータ読み取り可能な記憶媒体は、例えば、揮発性ストレージ及び/又は不揮発性ストレージを含むがこれらに限られない。前記揮発性ストレージは、例えば、ランダムアクセスストレージ(RAM)及び/又はキャッシュ(cache)などを含んでもよい。前記不揮発性ストレージは、例えば、読み出し専用メモリ(ROM)、ハードディスク、フラッシュストレージ、ディスク、フロッピーディスクなどを含んでもよい。
以上、図面を参照して本開示の実施例に係るニューラルネットワークに基づくテキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体について説明しており、異なる単語分割方法の利点を組み合わせ、トレーニング言語資料が少ない特定分野への適応を実現することによって、統計的学習に基づく単語分割方法及び深層学習に基づく単語分割方法より高い単語分割性能を得る。
本明細書で説明した各形態/実施形態は、単独で用いてもよく、組み合わせて用いてもよく、さらに、実行プロセスで切り替えて用いてもよい。また、本明細書で説明した各形態/実施形態の処理ステップ、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法について、例示的な順序で様々なステップのユニットを提示しており、提示した特定の順序に限定されない。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本明細書で「第1」、「第2」などの呼称を使用した場合においては、そのユニットへのいかなる参照も、それらのユニットの量または順序を全般的に限定するものではない。これらの呼称は、2つ以上のユニット間を区別する便利な方法として本明細書で使用され得る。したがって、第1ユニット及び第2ユニットへの参照は、2つのユニットのみがそこで採用され得ること、または何らかの形で第1のユニットが第2のユニットに先行しなければならないことを意味しない。
「含む(including)」、「含有する(comprising)」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的である。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
本願の各形態が、任意の新規および有用なプロセス、マシン、製造、もしくは組成物、またはこれらの任意の新規および有用な改良を含め、多数の特許性のあるクラスまたはコンテキストの何れかで説明し記述することが可能であることは、当業者に認識され得る。したがって、本願の各形態は、全体がハードウェアで実行されてもよく、全体がソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)で実行されてもよく、あるいは、ソフトウェアおよびハードウェアで実行されてもよい。以上のハードウェア又はソフトウェアは、いずれも「データブロック」、「モジュール」、「エンジン」、「ユニット」、「コンポーネント」又は「システム」と呼ばれてもよい。また、本願の各形態は、コンピュータ読み取り可能なプログラムコードを含む、1つ以上のコンピュータ読み取り可能な媒体中に位置するコンピュータプログラム製品として具体化することができる。
本願では、特定の用語が、本願の実施例を説明するために使われている。例えば、「一実施例」、「或る実施例」、及び/又は「一部の実施例」は、本願の少なくとも1つの実施例に関連する特定の特徴、構造又は特性を意味する。故に、認識されるように、本明細書では、様々な箇所における「或る実施例」又は「一実施例」又は「1つの代替的な実施例」への2回以上の言及は、必ずしもなく、同じ実施例に言及しているのではない。また、特定の特徴、構造又は特性は、適切な場合、本願の1つ以上の実施例で組み合わせることができる。
特に定義のない限り、ここで使用される全ての用語(技術用語および科学用語を含む)は、本開示が属する分野の当業者によって一般的に理解される意味と同じ意味を有する。例えば、通常、辞書で定義される用語は、関連技術の文脈における意味と一致する意味を有するものとして解釈されるべきであり、明確にそう定義されていない限り、理想的または過度に正式に解釈されないことがさらに理解されよう。
以上、本発明について詳細に説明したが、本発明が本明細書で説明された実施形態に限定されないことは、当業者にとっては当然のことである。本発明は、特許請求の範囲の記載によって決定される本発明の趣旨と範囲から逸脱することなく、変形と変更形態として実施することができる。したがって、本明細書の記載は、例示的に説明するためのものであり、本発明に対して何らかの限定的な意味を持つものではない。

Claims (10)

  1. ニューラルネットワークに基づくテキスト処理装置であって、
    入力テキストを取得するための受信ユニットと、
    前記入力テキストに対して第1テキスト処理を行い、前記入力テキストの第1前処理結果を取得するための第1処理ユニットと、
    前記入力テキストに対して第2テキスト処理を行い、前記入力テキストの第2前処理結果を取得するための第2処理ユニットと、
    前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するための処理結果生成ユニットと、を含み、
    前記第1テキスト処理は、深層学習に基づく分類処理であり、前記第2テキスト処理は、統計的学習に基づく分類処理である、テキスト処理装置。
  2. 前記処理結果出力ユニットは、
    前記第1前処理結果と前記第2前処理結果とが同一であるか否かを判断するための判断ユニットと、
    前記第1前処理結果と前記第2前処理結果とが同一である場合、同一の前記第1前処理結果と前記第2前処理結果とを前記処理結果とし、前記第1前処理結果と前記第2前処理結果とが異なる場合、異なる前記第1前処理結果と前記第2前処理結果とに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成するための第3処理ユニットと、を含み、
    前記第3テキスト処理は、サポートベクタマシンに基づく分類処理である、請求項1に記載のテキスト処理装置。
  3. 前記第1テキスト処理を行う第1処理ユニット及び前記第2テキスト処理を行う第2処理ユニットを第1コーパスでトレーニングし、
    前記第3テキスト処理を行う第3処理ユニットを第2コーパスでトレーニングするためのトレーニングユニットをさらに含み、
    前記第1コーパスに含まれる言語資料の数が、前記第2コーパスに含まれる言語資料の数よりも多い、請求項1又は2に記載のテキスト処理装置。
  4. 前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するための出力ユニットをさらに含み、
    前記第1前処理結果、前記第2前処理結果及び前記第3処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである、請求項1〜3のいずれか1項に記載のテキスト処理装置。
  5. ニューラルネットワークに基づくテキスト処理方法であって、
    入力テキストを取得するステップと、
    前記入力テキストに対して第1テキスト処理を行い、前記入力テキストの第1前処理結果を取得するステップと、
    前記入力テキストに対して第2テキスト処理を行い、前記入力テキストの第2前処理結果を取得するステップと、
    前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップと、を含み、
    前記第1テキスト処理は、深層学習に基づく分類処理であり、前記第2テキスト処理は、統計的学習に基づく分類処理である、テキスト処理方法。
  6. 前記第1前処理結果と前記第2前処理結果とに基づいて、前記入力テキストの処理結果を生成するステップは、
    前記第1前処理結果と前記第2前処理結果とが同一であるか否かを判断するステップと、
    前記第1前処理結果と前記第2前処理結果とが同一である場合、同一の前記第1前処理結果と前記第2前処理結果とを前記処理結果とするステップと、
    前記第1前処理結果と前記第2前処理結果とが異なる場合、異なる前記第1前処理結果と前記第2前処理結果とに対して第3テキスト処理を行い、前記入力テキストの処理結果を生成するステップと、を含み、
    前記第3テキスト処理は、サポートベクタマシンに基づく分類処理である、請求項5に記載のテキスト処理方法。
  7. 前記第1テキスト処理を行う第1処理ユニット及び前記第2テキスト処理を行う第2処理ユニットを第1コーパスでトレーニングするステップと、
    前記第3テキスト処理を行う第3処理ユニットを第2コーパスでトレーニングするステップと、をさらに含み、
    前記第1コーパスに含まれる言語資料の数が、前記第2コーパスに含まれる言語資料の数よりも多い、請求項5又は6に記載のテキスト処理方法。
  8. 前記処理結果に基づいて前記入力テキストに対応する出力テキストを生成するステップをさらに含み、
    前記第1前処理結果、前記第2前処理結果及び前記第3処理結果がそれぞれ前記入力テキストにおける各文字の位置ラベルを指示し、前記出力テキストが前記入力テキストに対応する単語分割テキストである、請求項5〜7のいずれか1項に記載のテキスト処理方法。
  9. プロセッサと、
    コンピュータプログラム命令を記憶するためのストレージと、を含み、
    前記コンピュータプログラム命令が前記プロセッサによってロードされ実行されるとき、前記プロセッサが請求項5〜8のいずれか1項に記載のテキスト処理方法を実行する、電子機器。
  10. プロセッサによってロードされ実行されるとき、前記プロセッサが請求項5〜8のいずれか1項に記載のテキスト処理方法を実行するコンピュータプログラム命令が記憶される、コンピュータ読み取り可能な記憶媒体。
JP2020085110A 2019-09-02 2020-05-14 テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体 Pending JP2021039727A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910822834.3 2019-09-02
CN201910822834.3A CN112528645A (zh) 2019-09-02 2019-09-02 文本处理方法、装置、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2021039727A true JP2021039727A (ja) 2021-03-11

Family

ID=74848681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085110A Pending JP2021039727A (ja) 2019-09-02 2020-05-14 テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体

Country Status (2)

Country Link
JP (1) JP2021039727A (ja)
CN (1) CN112528645A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011187A (zh) * 2021-03-12 2021-06-22 平安科技(深圳)有限公司 命名实体处理方法、系统及设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492426B (zh) * 2021-12-30 2023-04-07 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011187A (zh) * 2021-03-12 2021-06-22 平安科技(深圳)有限公司 命名实体处理方法、系统及设备

Also Published As

Publication number Publication date
CN112528645A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US20210232761A1 (en) Methods and systems for improving machine learning performance
US11568855B2 (en) System and method for defining dialog intents and building zero-shot intent recognition models
US11948058B2 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
US11645314B2 (en) Interactive information retrieval using knowledge graphs
Kim et al. Two-stage multi-intent detection for spoken language understanding
Mairesse et al. Stochastic language generation in dialogue using factored language models
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
Aleedy et al. Generating and analyzing chatbot responses using natural language processing
WO2018118546A1 (en) Systems and methods for an emotionally intelligent chat bot
CN110019742B (zh) 用于处理信息的方法和装置
JP7204801B2 (ja) ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体
WO2018232623A1 (en) SUPPLYING PERSONALIZED SONGS IN AN AUTOMATED ONLINE DIALOGUE
US20160154799A1 (en) Persona-Based Conversation
US11881209B2 (en) Electronic device and control method
US11783179B2 (en) System and method for domain- and language-independent definition extraction using deep neural networks
US20220147835A1 (en) Knowledge graph construction system and knowledge graph construction method
KR102355152B1 (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
Shen et al. Kwickchat: A multi-turn dialogue system for aac using context-aware sentence generation by bag-of-keywords
JP2021039727A (ja) テキスト処理方法、装置、電子機器及びコンピュータ読み取り可能な記憶媒体
JP2021096847A (ja) ユーザの発言に基づくマルチメディア推奨
KR20190074508A (ko) 챗봇을 위한 대화 모델의 데이터 크라우드소싱 방법
US20190317993A1 (en) Effective classification of text data based on a word appearance frequency
US20230103313A1 (en) User assistance system
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
Ribeiro et al. UA. PT Bioinformatics at ImageCLEF 2019: Lifelog Moment Retrieval based on Image Annotation and Natural Language Processing.