JP2022055334A - テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体 - Google Patents

テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体 Download PDF

Info

Publication number
JP2022055334A
JP2022055334A JP2021152385A JP2021152385A JP2022055334A JP 2022055334 A JP2022055334 A JP 2022055334A JP 2021152385 A JP2021152385 A JP 2021152385A JP 2021152385 A JP2021152385 A JP 2021152385A JP 2022055334 A JP2022055334 A JP 2022055334A
Authority
JP
Japan
Prior art keywords
input
model
training
word
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021152385A
Other languages
English (en)
Inventor
シーホン グオ
Xihong Guo
ヤーヂュオ グワァン
Yazhuo Guan
ウェイ リィウ
Wei Liu
アンシン リ
An-Shin Lee
ラン チェン
Lan Chen
一成 中村
Kazunari Nakamura
拓 藤本
Hiroshi Fujimoto
大志 池田
Hiroshi Ikeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2022055334A publication Critical patent/JP2022055334A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】圧縮結果が全てのキーポイントをカバーしかつ構文的な問題を考慮する必要がないようにすることができるテキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。【解決手段】テキスト処理方法は、一つ又は複数の入力文句を受信することと、一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む。【選択図】図1

Description

本出願は、テキスト処理分野に関し、かつ具体的にテキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体に関するものである。
近年、コンピュータ処理技術の高速化に伴い、テキスト中の重要な情報をより精細で迅速に把握することが可能になっている。文句の圧縮は、冗長な文句を的確な文句に変換する方法である。この技術は主題の自動取得、要約の生成、質疑応答システムなどの技術に広く用いられている。
従来の文句圧縮方法としては、文句に関する構文木を構築し、構文木の枝全体を削減することで圧縮文句を生成する方法や、ニューラルネットワークによる圧縮モデルをトレーニングすることで文句圧縮を行う方法がある。構文木の枝全体を削減することで圧縮文句を生成する方法は、構文的な問題を招く可能性があり、ニューラルネットワークによる圧縮モデルを訓練することで文句圧縮を行うことは、大量のトレーニングデータが必要であり、人件コストが大きい。
上記の問題に鑑み、本開示は、テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。
本開示の一態様によれば、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、テキスト処理方法を提供する。
本開示の一例によれば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することと、を含む。
本開示の一例によれば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することは、前記一つ又は複数のキーポイントに基づいて、前記第1の構文木における全てのキーポイントをカバーする最も短い経路を決定することと、前記圧縮結果として、前記最も短い経路に対応する単語を組み合わせることと、を含む。
本開示の一例によれば、前記第1の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される。
本開示の一例によれば、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する。
本開示の一例によれば、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、を含む。
本開示の一例によれば、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む。
本開示の一例によれば、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第2の構文木を構築すること、前記第2の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得すること、前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすること、により前記キーポイント識別モデルをトレーニングする。
本開示の一例によれば、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、さらに、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含み、前記付加情報は、所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含む。
本開示の一例によれば、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別する。
本開示の一例によれば、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別する。
本開示の一例によれば、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別する。
本開示の一例によれば、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例する。
本開示の一態様によれば、一つ又は複数の入力文句を受信する受信部と、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する識別部と、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する圧縮部と、を含む、テキスト処理装置を提供する。
本開示の一例によれば、前記圧縮部は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築し、及び、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮する。
本開示の一例によれば、前記圧縮部は、前記一つ又は複数のキーポイントに基づいて、前記第1の構文木における全てのキーポイントをカバーする最も短い経路を決定し、及び、前記圧縮結果として前記最も短い経路に対応する単語を組み合わせる。
本開示の一例によれば、前記第1の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される。
本開示の一例によれば、前記識別部は、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、かつ、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する。
本開示の一例によれば、前記識別部は、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。
本開示の一例によれば、前記識別部は、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。
本開示の一例によれば、前記識別部は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第2の構文木を構築することと、前記第2の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得することと、前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすることにより、前記キーポイント識別モデルをトレーニングする。
本開示の一態様によれば、プロセッサと、コンピュータ可読な命令を記憶するメモリと、を含むテキスト処理デバイスであって、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することとを含むテキスト処理方法を、前記コンピュータ可読な命令が前記プロセッサにより実行される場合に実行する、テキスト処理デバイスを提供する。
本開示の一態様によれば、上記のいずれかの態様に記載のテキスト処理方法をコンピュータに実行させる、コンピュータ可読なプログラムを記憶するコンピュータ可読な記憶媒体を提供する。
本開示の上記の態様では、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構文木を構築し、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。
添付図面を参照して本開示の実施形態をより詳細に説明することにより、本開示の上記及び他の目的、特徴、及び利点がより明らかになる。図面は、本開示の実施形態のさらなる理解を提供し、明細書の一部を構成し、本開示の実施形態と共に本開示を説明するが、本開示を限定するものではない。図面において、同じ符号は一般に同じ要素又はステップを表す。
本開示の実施形態によるテキスト処理方法のフローチャートである。 本開示の実施形態によるキーポイント(重要点)識別モデルのトレーニング方法のフローチャートである。 本開示の実施形態によるキーポイント識別モデルをトレーニングする一例を示す模式図である。 本開示の実施形態により構築される第1の構文木の一例を示す模式図である。 本開示の実施形態により構築される第1の構文木の別の例を示す模式図である。 本開示の実施形態により構築される第1の構文木の別の例を示す模式図である。 本開示の実施形態により構築される第1の構文木の又別の例を示す模式図である。 本開示の実施形態による複数の入力文句の処理方法のフローチャートである。 本開示の実施形態によるテキスト処理方法により取得される圧縮結果の一例を示す模式図である。 本開示の実施形態によるトレーニング方法のフローチャートである。 本開示の実施形態によるトレーニング方法の模式図である。 本開示の実施形態によるトレーニング方法の別の模式図である。 本開示の実施形態によるテキスト処理装置の機能ブロック図である。 本開示の実施形態によるテキスト処理デバイスの機能ブロック図である。 本開示の実施形態によるコンピュータ可読な記憶媒体の模式図である。 本開示の実施形態によるトレーニング装置の機能ブロック図である。 本開示の実施形態によるトレーニングデバイスの機能ブロック図である。 本開示の実施形態にかかる電子機器のハードウェア構成の一例を示す図である。
以下、本開示の実施形態における図面を参照しながら、本開示の実施形態における技術的解決策を明確かつ完全に記載する。ここで記載される実施形態は、本開示の一部の実施形態に過ぎず、全ての実施形態ではないことが明らかである。本開示の実施形態に基づいて、創造的労働なしに当業者により得られる他の全ての実施形態は、本開示の保護範囲内に入るものとする。
本願では、本願の実施形態による方法のステップを説明するためにフローチャートを使用する。なお、前又は後のステップは必ずしも順序どおりに正確に行われるとは限らないことが理解されるべきである。逆に、順序を逆にしたり、さまざまなステップを同時に処理したりできる。また、これらのプロセスに他の操作を追加したり、これらのプロセスから1つ又は複数のステップを削除したりすることもできる。
まず、図1を参照して、本開示の実施形態を実現するためのテキスト処理方法100について説明する。本開示では、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構文木を構築し、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより、圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。
以下、図面を参照しながら本開示の実施形態及びその例について詳細に説明する。
本開示の少なくとも一つの実施形態は、テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。以下、いくつかの例及び実施形態を介して、本開示の少なくとも一つの実施形態により提供されるテキスト処理について非限定的に説明するが、以下で説明されるとおり、互いに衝突しない限り、これらの具体的な例及び実施形態における異なる特徴は、互いに組み合わせて新たな例及び実施形態を得ることができ、これらの新たな例及び実施形態も、いずれも本開示の保護範囲に属する。
以下、図1~8を参照して、本開示の実施形態によるテキスト処理方法について説明する。
まず、図1を参照して、本開示の実施形態によるテキスト処理方法100について説明する。当該方法は、コンピュータ等で自動的に完成されてもよい。例えば、当該方法は、テキストの要約抽出、テキストのまとめ、主題の自動取得及び質疑応答システム等に適用できる。例えば、当該テキスト処理取得方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせで実現することができ、例えば、携帯電話機、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバ等のデバイスにおけるプロセッサによりロードされ実行されることができる。
図1に示すように、当該テキスト処理方法は、以下のステップS101~S103を含む。
ステップS101において、一つ又は複数の入力文句を受信する。
ステップS102において、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。
ステップS103において、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する。
ステップS101に関して、例えば、一つ又は複数の入力文句は、ニュース、製品紹介、論文等であってもよく、ここで限定されない。
ステップS102に関して、例えば、一つ又は複数のキーポイントは、ユーザが所望する一つ又は複数の字又は単語であってもよい。
例えば、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することとは、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含むことができる。
例えば、前記の所定の規則は、いずれの既知の重要語句や単語や字を予測する規則であってもよい。例えば、人名、組織、地域、固有の用語、一般名、補助名、又は特殊な字を含む断片(例えば、カスタム単語又は単語群)を一つ又は複数のキーポイントとしてもよい。
例えば、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。
以下、例を挙げて、図2~3を参照して、キーポイント識別モデルについて説明する。図2は、本開示の実施形態によるキーポイント識別モデルのトレーニング方法200のフローチャートであり、図3は、本開示の実施形態によるキーポイント識別モデルをトレーニングする例を示す模式図である。なお、キーポイントを識別するキーポイント識別モデルは、いずれの既知のモデルであってもよく、ここで説明されるモデルが一例にすぎず、これに限定されないと理解すべきである。
図2に示すように、以下のステップにより、前記キーポイント識別モデルをトレーニングすることができる。前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第2の構文木を構築する(S201)。前記第2の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得する(S202)。前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングする(S203)。
例えば、当該第2の構文木は、同期木置換文法の解析木(例えば、従来の文脈自由モデルに基づく文法の解析木(Parse Tree)、又は、同期木置換文法(Synchronous Tree Substitution Grammar、STSG)に基づくモデル)のような構文木でもよい。第2の構文木は、監視/半監視/監視なしの事前トレーニングモデル(例えば、変換器からの双方向符号化表現(Bidirectional Encoder Representations From Transformers、BERT)、文脈に敏感な事前トレーニングテキスト語意抽出モデル等)に基づいて取得されることができ、ここで限定されない。
例えば、図3に示すように、文句における字又は単語の構成は、深層と表層の2つの階層がある。第2の構文木31により入力文句30における各々の字又は単語の深層情報32と表層情報33を取得することができる。或いは、例えば、BERTモデルに基づいて取得される第2の構文木により入力文句における各々の字又は単語の深層情報32を生成し、そして文脈に敏感な事前トレーニングテキスト語意抽出モデルにより入力文句における各々の字又は単語の表層情報33を直接に抽出することができる。なお、その他の方法を採用して入力文句における各々の字又は単語の深層情報32と表層情報33を取得することもできるが、ここで限定されないと理解されるべきである。
次に、図3に示すように、入力文句における各々の字又は単語の深層情報32及び/又は表層情報33に基づいてキーポイント識別モデル34をトレーニングすることができる。ここでわかるように、入力文句における各々の字又は単語の表層情報のみに基づいてトレーニングされるキーポイント識別モデルと比較して、入力文句における各々の字又は単語の深層情報に基づいてトレーニングされるキーポイント識別モデルの識別効果が、より優れる。また、構文木を用いて各々の字又は単語の深層情報を取得する方式は、より簡単である。
或いは、例えば、前記の所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することとは、さらに、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することを含み、前記付加情報は、所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含むことができる。
或いは、例えば、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別することができる。
或いは、例えば、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別することができる。例えば、一定の規則に基づいて、統計学習(例えば、単語頻度-逆文書頻度指数(Term Frequency-Inverse Document Frequency、TF-IDF)、劣モジュラ関数(Submodular Function)、潜在意味解析(Latent Semantic Analysis、LSA)等)に基づいて、又は深層学習方法(例えば、分類法、回帰法等)に基づいて、前記一つ又は複数の入力文句の各々の入力文の単語を採点し、前記一つ又は複数のキーポイントを識別することができる。例えば、構文木が表す単語又は字の特徴に基づいて各々の入力文の単語を採点することもできる。
或いは、例えば、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別することができる。
なお、上記の個別の一つの方法又は上記の複数を組み合わせた方法により前記一つ又は複数のキーポイントを識別することができるが、ここで限定されないと理解されるべきである。
次に、図1のステップS103に戻り、例えば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することと、を含むことができる。
例えば、第1の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築されてもよい。依存関係は、依存文法に準ずる。依存文法とは、言語単位内の成分間の依存関係を解析することによりその構文構成を解釈することを意味し、テキスト内の中核動詞がその他の成分を支配する中心成分であるが、中核動詞自体がその他のいずれの成分により支配されず、全ての支配される成分が何らかの関係で支配者に従属すると主張する。なお、依存文法は、必要に応じて異なるの規則に準ずることができるが、特定の依存規則に限定されないと理解されるべきである。
以下、図4~6を参照して本開示の実施形態による第1の構文木の構築例について説明する。
図4に、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される第1の構文木を示す。当該構文木では、第1の構文木の各々のノードAからKが前記入力文句の各々の単語に対応し、上から下へのABCDEFGHIJKとは、各々の単語の出現順序に従って構築される出現順序経路であり、右側のAからC及びDからI等の矢印は、各々の入力文句における各々の単語の間の依存関係に基づいて構築される依存経路である。ここでわかるように、キーポイントがB、D、E及びJであると識別される場合、全てのキーポイントをカバーするために、当該第1の構文木を、ABCDEFK又はABCDEFIJKに圧縮することができる。
例えば、前記一つ又は複数のキーポイントに基づいて、前記第1の構文木における全てのキーポイントをカバーする最も短い経路を決定し、そして前記圧縮結果として前記最も短い経路に対応する単語を組み合わせることができる。例えば、図4では、キーポイントがB、D、E及びJであると識別される場合、前記圧縮結果として前記最も短い経路であるABCDEFKに対応する単語を組み合わせることができる。
Figure 2022055334000002
なお、図5~6に示すような第1の構文木は、一つの特定の依存関係に準ずる例にすぎず、ここで限定されなく、本開示の第1の構文木は、その他のいずれの適切な依存関係に準ずることができると理解されるべきである。
また、複数の入力文句について、複数の繰り返しの単語が存在する可能性がある。そのため、前記一つ又は複数のキーポイントを識別する前に、先に複数の入力文句の繰り返しの単語を処理して、キーポイントを識別する際の処理複雑度を低減することができる。
図7に、本開示の実施形態による複数の入力文句の処理の方法300のフローチャートである。図7に示すように、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し(S301)、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する(S302)。
例えば、所定回数は、統計データによって予め指定されてもよく、ここで限定されない。例えば、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて複数の入力文句に対して第3の構文木を構築することができ、入力文句における所定回数繰り返す単語を削除した後に第3の構文木の経路が中断となると、当該入力文句における所定回数繰り返す単語を削除することができない。
一部の入力文句における所定回数繰り返す単語を予め削除することにより、キーポイントを識別する際の処理複雑度を低減し、処理効率を向上させることができる。
図8は、本開示の実施形態によるテキスト処理方法により取得される圧縮結果の一例を示す。
Figure 2022055334000003
本開示は、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。
また、上記のテキスト処理方法により取得されるの一つ又は複数の入力文句及び当該一つ又は複数の入力文句の圧縮結果をトレーニングデータセットとして、圧縮モデルをトレーニングすることにより、トレーニング複雑度を低減し、かつトレーニングされる圧縮モデルの正確度を向上させることができる。
本開示の少なくとも一つの実施形態は、トレーニング方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。以下、いくつかの例及び実施形態を介して、本開示の少なくとも一つの実施形態により提供されるトレーニング方法について非限定的に説明するが、以下で説明されるとおり、互いに衝突しない限り、これらの具体的な例及び実施形態における異なる特徴は、互いに組み合わせて新たな例及び実施形態を得ることができ、これらの新たな例及び実施形態も、いずれも本開示の保護範囲に属する。
以下、図9~11を参照して、本開示の実施形態によるトレーニング方法について説明する。
本開示のトレーニング方法は、まず、取得しようとする目標モデルと同じ作用の簡易モデルに基づいて大量のトレーニングデータセットを取得し、かつ当該大量データセットを用いて目標モデルの初期モデルをトレーニングし、そしてタグ付けが少ないトレーニングデータセットを用いてトレーニングされた初期モデルを微調整して最終目標モデルを取得することにより、タグ付けが少ないデータセットを用いて取得しようとする目標モデルを取得することができ、処理複雑度及びタグ付けコストを低減しかつ開発サイクルを短縮する。
まず、図9を参照して、本開示の実施形態によるトレーニング方法400について説明する。
例えば、当該方法は、コンピュータ等で自動的に完成されてもよい。当該トレーニング方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせで実現することができ、例えば、携帯電話、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバ等デバイスにおけるプロセッサによりロードされ実行されることができる。
図9に示すように、当該トレーニング方法は、以下のステップS101~S104を含む。
ステップS401において、第1のトレーニングデータセット及び前記第1のトレーニングデータセットの第1の事前処理結果を取得する。
ステップS402において、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、第2のモデルを取得するように、第1のモデルをトレーニングする。
ステップS403において、第2のトレーニングデータセット及び前記第2のトレーニングデータセットの第2の事前処理結果を取得する。
ステップS404において、前記第2のトレーニングデータセット及び前記第2の事前処理結果を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングして、前記第1の事前処理結果が前記第3のモデルに関連する第4のモデルに基づいて取得され、かつ前記第2のトレーニングデータセットの数が前記第1のトレーニングデータセットの数よりも少ないである。
例えば、当該トレーニング方法400は、テキスト処理分野に適用することができ、前記第2のモデル、前記第3のモデル、前記第4のモデルは、テキスト圧縮、テキスト翻訳、情報抽出及びテキスト生成における少なくとも一つに使用される。本開示のトレーニング方法400は、テキスト処理分野に限らず、いずれの適切な分野に適用できるが、ここで限定されない。
図10は、本開示の実施形態によるトレーニング方法400の模式図である。理解を容易にするために、以下、当該トレーニング方法をテキスト処理分野の圧縮モデルに適用することを例として説明する。
ステップS401に関して、例えば、第1のトレーニングデータセットは、大量のテキストデータ(例えば、200万の文)を含むことができる。例えば、第4のモデル23で第1のトレーニングデータセット21を処理することにより第1の事前処理結果22を取得することができる。例えば、当該トレーニング方法400を用いて圧縮モデルをトレーニングしようとする場合、第4のモデル23は、図1を参照しながら説明されるテキスト処理方法の簡易圧縮モデルであってもよく、第1の事前処理結果は、上記の簡易圧縮モデルにより取得される圧縮テキストであってもよい。
例えば、前記第1の事前処理結果は、前記第4のモデルに基づいて、以下のステップにより取得される圧縮結果であってもよい。一つ又は複数の入力文句を受信するステップと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別するステップと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮するステップと、ことです。
例えば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する前記のことは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することと、を含むことができる。
また、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例し、かつ前記トレーニング方法は、前記第4のモデルにより取得される異なる長さの圧縮結果と前記第1の事前処理結果とすることにより、トレーニングデータセットの文法及び長さ構成を豊富にすることができる。
圧縮結果の取得方法は、上記の図1~8を参照しながら取得することができ、ここで説明を省略する。
例えば、第4のモデル23の作用は、最終的にトレーニングにより取得しようとするモデルの作用と関連するため、トレーニングにより取得されるモデルの正確率をより高くすることができる。
ステップS402に関して、例えば、第1のモデル24は、初期化された圧縮モデルであってもよい。例えば、第1のモデル24は、テキストにおける字又は単語を単に削除することにより圧縮結果を取得することができる。例えば、上記の第1のトレーニングデータセット21及び第1の事前処理結果22(例えば、図1に示すような簡易圧縮モデルに基づいて取得される結果)を用いて第1のモデル24をトレーニングすることにより、第2のモデル25を取得することができる。
ステップS403~S404に関して、例えば、第2のトレーニングデータセット27は、少ないデータ(例えば、1000の文)しか含まなくてもよい。第2のトレーニングデータセット27よりも遥かに多い数の第1のトレーニングデータセット21を用いて第1のモデル24を事前トレーニングすることにより、第2のモデル25を取得したため、次に少ないデータを含む第2のトレーニングデータセットを用いて第2のモデルを微調整してトレーニングすることにより、所望のトレーニングモデル(即ち、第3のモデル26)を取得することができる。例えば、第2のトレーニングデータセット27を人工タグ付けにより第2の事前処理結果28を取得することができる。第2のトレーニングデータセット27が少量データしか含まないため、タグ付けコストを低減しかつ開発サイクルを短縮することができる。
図10からわかるように、第1のトレーニングデータセット21及び第3のモデル26に関連する第4のモデル23に基づいて取得される第1の事前処理結果22により第1のモデルを事前トレーニングし、事前トレーニングされた第2のモデル25を取得することができる。次に、第1のトレーニングデータセット21よりも遥かに少ない数の第2のトレーニングデータセット27及び第2の事前処理結果28に基づいて第2のモデルを微調整してトレーニングすることにより、所望の第3のモデル26を取得することができる。
例えば、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、第2のモデルを取得するように、第1のモデルをトレーニングする前記のことは、前記第1のトレーニングデータセット、前記第1の事前処理結果及び判別器(discriminator)を用いて前記第1のモデルをトレーニングして第2のモデルを取得することを含み、前記判別器は、トレーニングされる前記第1のモデルの出力結果が所定の規則に従うか否かに基づいて前記第1のモデルをトレーニングすることができる。
例えば、前記判別器は、前記第1のモデルの入力及び出力に基づいて予めトレーニングされてなることができる。例えば、前記判別器は、出力結果が所定の文規則に従うか否かを判断することができる。例えば、判別器は、出力文が構文的な規則に従うか否かを判断することができる。
例えば、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて第1のモデルをトレーニングする前に、第1のモデルの入力及び出力を用いて判別器を予めトレーニングすることができる。例えば、第1のモデルの入力が出力よりも構文的な規則に従う可能性が高いため、第1のモデルの入力を1(構文的な規則に従う)とし、第1のモデルの出力を0(構文的な規則に従わない)とし、判別器をトレーニングして、判別器が新たな入力を採点でき、かつ当該採点結果が0と1の間にあるようにすることができる。なお、1と0は、構文的な規則に従う相対的な程度を表示するためのものにすぎず、これらが本開示の例として限制されるものではないと理解されるべきである。
或いは、例えば、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて第1のモデルをトレーニングする過程で、第1のモデルの入力及び出力を用いて判別器を予めトレーニングすることができる。例えば、まず、第1のモデルのトレーニングを停止して、そして現在の第1のモデルの入力を1とし、現在の第1のモデルの出力を0とし、判別器をトレーニングして、判別器が新たな入力を採点でき、かつ当該採点結果が0と1の間にあるようにすることができる。次に、さらに前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、引き続き第1のモデルをトレーニングする。
或いは、例えば、第1のモデルと判別器のトレーニングを反復し、取得される判別器の正確率をより高くすることができる。
なお、上記の判別器をトレーニングするの方法は、一例にすぎず、判別器をトレーニングするの方法は、これに限定されないと理解されるべきである。
例えば、予めトレーニングされた判別器を取得した後、前記第1のトレーニングデータセット、前記第1の事前処理結果及び判別器を用いて前記第1のモデルをトレーニングして、第2のモデルを取得することができる。
例えば、以下の損失関数Lを用いて前記第1のモデルをトレーニングすることができる。
=L+L …(1)
ここで、Lは、第1のトレーニングデータセット及び前記第1の事前処理結果に基づいて取得される損失関数を示し、Lは、判別器に基づいて取得される損失関数を示す。このトレーニングの間に、判別器の目標は、モデルの出力結果を構文的な規則に従わせる(例えば、1に近づく)ことである。
例えば、前記第2のトレーニングデータセット及び前記第2の事前処理結果を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングする前記のことは、前記第2のトレーニングデータセット、前記第2の事前処理結果及び判別器を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングすることを含み、前記判別器は、トレーニングされる前記第2のモデルの出力結果が所定の規則に従うか否かに基づいて前記第2のモデルをトレーニングすることができる。
例えば、以下の損失関数Lを用いて、前記第2のモデルをトレーニングすることができる。
=L+L …(2)
ここで、Lは、第2のトレーニングデータセット及び前記第2の事前処理結果に基づいて取得される損失関数を示し、Lは、判別器に基づいて取得される損失関数を示す。
判別器を用いて第1のモデル及び第2のモデルをトレーニングすることにより、第1のモデル及び第2のモデルの出力結果が所定の規則(例えば、構文的な規則)に従うか否かを監視し、最終的にトレーニングにより取得される第3のモデルの出力結果がより正確にすることができる。
以下、図11を参照して、本開示の実施形態によるトレーニング方法の別の模式図について説明する。
図11に示すように、本開示のトレーニング方法は、事前トレーニング段階60と、トレーニング段階62との2つの段階を含む。事前トレーニング段階60において、大量データセット51により事前トレーニングモデル52をトレーニングする。例えば、当該大量データセット51は、以上に記載される第1のトレーニングデータセット及び前記第1のトレーニングデータセットの第1の事前処理結果であってもよい。ここで、当該トレーニング方法を文圧縮モデルのトレーニングに用いる場合、当該第1の事前処理結果は、図1に示すようなテキスト処理方法により取得されるの圧縮結果であってもよい。例えば、トレーニング段階では、少量データセット54により、大量データセットで既にトレーニングされた事前トレーニングモデル52を微調整してトレーニングする。例えば、当該少量データセット54は、以上に記載される第2のトレーニングデータセット及び前記第2のトレーニングデータセットの第2の事前処理結果であってもよい。例えば、第2のトレーニングセットが、数が少ないデータを含むため、人工タグ付け等のコスト又は複雑度が大きいが正確度も高い処理を用いて第2の事前処理結果を取得して、大量データセットで既にトレーニングされた事前トレーニングモデル52を微調整してトレーニングすることができ、それによりその出力の正確度を向上させる。
また、図11に示すように、事前トレーニング段階60及びトレーニング段階62では、さらに、判別器57により事前トレーニングモデル52をトレーニングして、事前トレーニングモデル52の出力結果が所定の規則に従うようにすることができる。
本開示の上記の態様では、まず、大量データセットを用いて目標モデルの初期モデルをトレーニングし、そしてタグ付けが少ないトレーニングデータセットを用いてトレーニングされた初期モデルを微調整して最終目標モデルを取得して、タグ付けが少ないデータセットを用いることにより取得しようとする目標モデルを取得することができ、処理複雑度及びタグ付けコストを低減しかつ開発サイクルを短縮する。
なお、本開示に記載のトレーニング方法は、テキスト処理分野に限らず、或いは、例えば、本開示のトレーニング方法は、図像処理分野等にも使用することができると理解されるべきである。また、本開示に記載のトレーニング方法は、テキスト圧縮モデルのトレーニングに限定されない。
或いは、例えば、本開示のトレーニング方法は、トレーニング機械翻訳モデルにも使用することができる。例えば、簡単な翻訳システム(統計機械翻訳システム又は語彙マッピングシステム)を構築し、かつ大量データセットを用いて当該翻訳システムに基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。
或いは、例えば、本開示のトレーニング方法は、トレーニング情報抽出モデルにも使用することができる。例えば、実体関係に対して一つの統計辞書を構築し、かつ大量データセットを用いて当該統計辞書に基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。
或いは、例えば、本開示のトレーニング方法は、トレーニングテキスト生成モデルにも使用することができる。例えば、一つの簡単なテキスト抽出情報システムを構築し、かつ大量データセットを用いて当該簡単なテキスト抽出情報システムに基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。
以上、図1~8を参照しながら、本開示の実施形態によるテキスト処理方法について説明する。以下、本開示の実施形態によるテキスト処理装置について説明する。
図12は、本開示の実施形態によるテキスト処理装置を図示する機能ブロック図である。図12に示すように、本開示の実施形態によるテキスト処理装置1000は、受信部1010と、識別部1020と、圧縮部1030とを含む。上記の各ブロックは、それぞれ、以上に図1から図8を参照しながら説明した本開示の実施形態によるテキスト処理方法の各々のステップを実行することができる。当業者であれば、これらのユニットブロックは、単独にハードウェアで、単独にソフトウェアで、又はそれらの組み合わせで様々な方式により実現されてもよく、かつ本開示は、それらのいずれかに限定されないと理解する。例えば、中央処理ユニット(CPU)、テキストプロセッサ(GPU)、テンソルプロセッサ(TPU)、フィールドプログラム可能な論理ゲートアレイ(FPGA)又はデータ処理能力及び/又は命令実行能力を有するその他の形式の処理ユニット及び相応するコンピュータ命令によりこれらのユニットを実現することができる。
例えば、受信部1010は、一つ又は複数の入力文句を受信することができ、識別部1020は、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができ、圧縮部1030は、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することができる。
例えば、一つ又は複数のキーポイントは、ユーザが所望する一つ又は複数の字又は単語であってもよい。
例えば、識別部1020は、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。
例えば、前記の所定の規則は、いずれの既知の重要語句や単語や字を予測する規則であってもよい。例えば、人名、組織、地域、固有の用語、一般名、補助名、又は特殊な字を含む断片(例えば、カスタム単語又は単語群)を一つ又は複数のキーポイントとしてもよい。
例えば、識別部1020は、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。
以下、例を挙げて、図2~3を参照して、キーポイント識別モデルについて説明する。なお、キーポイントを識別するキーポイント識別モデルは、いずれの既知のモデルであってもよく、ここで説明されるモデルが一例にすぎず、これに限定されないと理解すべきである。
図2に示すように、識別部1020は、以下のステップにより、前記キーポイント識別モデルをトレーニングすることができる。前記一つ又は複数の入力文句の各々の入力文句に対して、前記入力文句の単語に対応するノードを有する第2の構文木を構築する(S201)。前記第2の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得する(S202)。前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングする(S203)。
例えば、当該第2の構文木は、同期木置換文法の解析木(例えば、従来の文脈自由モデルに基づく文法の解析木(Parse Tree)、又は、同期木置換文法(Synchronous Tree Substitution Grammar、STSG)に基づくモデル)のような構文木でもよい。第2の構文木は、監視/半監視/監視なしの事前トレーニングモデル(例えば、変換器からの双方向符号化表現(Bidirectional Encoder Representations From Transformers、BERT)、文脈に敏感な事前トレーニングテキスト語意抽出モデル等)に基づいて取得されることができ、ここで限定されない。
例えば、図3に示すように、文句における字又は単語の構成は、深層と表層の2つの階層がある。第2の構文木31により入力文句30における各々の字又は単語の深層情報32と表層情報33を取得することができる。或いは、例えば、BERTモデルに基づいて取得される第2の構文木により入力文句における各々の字又は単語の深層情報32を生成し、そして文脈に敏感な事前トレーニングテキスト語意抽出モデルにより入力文句における各々の字又は単語の表層情報33を直接に抽出することができる。なお、その他の方法を採用して入力文句における各々の字又は単語の深層情報32と表層情報33を取得することもできるが、ここで限定されないと理解されるべきである。
次に、図3に示すように、識別部1020は、入力文句における各々の字又は単語の深層情報32及び/又は表層情報33に基づいてキーポイント識別モデル34をトレーニングすることができる。ここでわかるように、入力文句における各々の字又は単語の表層情報のみに基づいてトレーニングされるキーポイント識別モデルと比較して、入力文句における各々の字又は単語の深層情報に基づいてトレーニングされるキーポイント識別モデルの識別効果が、より優れる。また、構文木を用いて各々の字又は単語の深層情報を取得する方式は、より簡単である。
或いは、例えば、識別部1020は、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができ、前記付加情報が所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含む。
或いは、例えば、識別部1020は、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別することができる。
或いは、例えば、識別部1020は、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別することができる。例えば、識別部1020は、一定の規則に基づいて、統計学習(例えば、単語頻度-逆文書頻度指数(Term Frequency-Inverse Document Frequency、TF-IDF)、劣モジュラ関数(Submodular Function)、潜在意味解析(Latent Semantic Analysis、LSA)等)に基づいて、又は、深層学習方法(例えば、分類法、回帰法等)に基づいて、前記一つ又は複数の入力文句の各々の入力文の単語を採点し、前記一つ又は複数のキーポイントを識別することができる。例えば、識別部1020は、構文木が表す単語又は字の特徴に基づいて各々の入力文の単語を採点することもできる。
或いは、例えば、識別部1020は、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別することができる。
なお、識別部1020は、上記の個別の一つの方法又は上記の複数を組み合わせた方法により前記一つ又は複数のキーポイントを識別することができるが、ここで限定されないと理解されるべきである。
次に、圧縮部1030は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することと、を含むことができる。
例えば、第1の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築されてもよい。
図4に、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される第1の構文木を示す。当該構文木では、第1の構文木の各々のノードAからKが前記入力文句の各々の単語に対応し、上から下へのABCDEFGHIJKとは、各々の単語の出現順序に従って構築される出現順序経路であり、右側のAからC及びDからI等の矢印は、各々の入力文句における各々の単語の間の依存関係に基づいて構築される依存経路である。ここでわかるように、識別されたキーポイントがB、D、E及びJである場合、全てのキーポイントをカバーするために、当該第1の構文木を、ABCDEFK又はABCDEFIJKに圧縮することができる。
例えば、圧縮部1030は、前記一つ又は複数のキーポイントに基づいて、前記第1の構文木における全てのキーポイントをカバーする最も短い経路を決定し、そして前記圧縮結果として前記最も短い経路に対応する単語を組み合わせることができる。例えば、図4では、識別されたキーポイントがB、D、E及びJである場合、前記圧縮結果として前記最も短い経路であるABCDEFKに対応する単語を組み合わせることができる。ここでわかるように、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例する。
また、複数の入力文句について、複数の繰り返しの単語が存在する可能性がある。そのため、前記一つ又は複数のキーポイントを識別する前に、識別部1020は、先に複数の入力文句の繰り返しの単語を処理して、キーポイントを識別する際の処理複雑度を低減することができる。
図7に示すように、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し(S301)、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する(S302)。
例えば、所定回数は、統計データによって予め指定されてもよく、ここで限定されない。例えば、識別部1020は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて複数の入力文句に対して第3の構文木を構築することができ、入力文句における所定回数繰り返す単語を削除した後に第3の構文木の経路が中断となると、当該入力文句における所定回数繰り返す単語を削除することができない。
識別部1020は、一部の入力文句における所定回数繰り返す単語を予め削除することにより、キーポイントを識別する際の処理複雑度を低減し、処理効率を向上させることができる。
以下、図13を参照して、本開示の実施形態によるテキスト処理デバイス1100について説明する。図13は、本開示の実施形態によるテキスト処理デバイスの模式図である。本実施形態のテキスト処理デバイスの機能は、以上の図1を参照しながら説明する方法の詳細が同じであるため、ここで便利のため、同じ内容の詳細な説明を省略する。
本開示のテキスト処理デバイスは、プロセッサ1102と、コンピュータ可読な命令を記憶するメモリ1101とを含むテキスト処理装置であって、前記コンピュータ可読な命令が前記プロセッサにより実行される場合、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、テキスト処理方法を実現する。
異なる実施形態におけるテキスト処理装置1000及びテキスト処理デバイス1100の技術効果は、本開示の実施形態に提供されるテキスト処理方法の技術効果を参照することができ、ここで説明を省略する。
テキスト処理装置1000及びテキスト処理デバイス1100は、様々な適切な電子機器に用いることができる。
図14は、本開示の実施形態によるコンピュータ可読な記憶媒体1200の模式図である。
図14に示すように、本開示は、さらに、コンピュータ可読な命令1201を記憶する、コンピュータ可読な記憶媒体1200を含み、当該コンピュータ可読な命令がコンピュータにより実行される場合、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、コンピュータテキスト処理方法を実現する。
以上、図面を参照して、本開示の実施形態によるトレーニング方法について説明した。以下、本開示の実施形態によるトレーニング装置について説明する。
図15は、本開示の実施形態によるトレーニング装置を図示する機能ブロック図である。図15に示すように、本開示の実施形態によるトレーニング装置1300は、第1の取得部1301と、第1のトレーニング部1302と、第2の取得部1303と、第2のトレーニング部1304と、を含む。上記の各ブロックは、それぞれ、以上に図9から図11を参照しながら説明した本開示の実施形態によるテキスト処理方法の各々のステップを実行することができる。当業者であれば、これらのユニットブロックは、単独にハードウェアで、単独にソフトウェアで、又はそれらの組み合わせで様々な方式により実現されてもよく、かつ本開示は、それらのいずれかに限定されないと理解する。例えば、中央処理ユニット(CPU)、テキストプロセッサ(GPU)、テンソルプロセッサ(TPU)、フィールドプログラム可能な論理ゲートアレイ(FPGA)又はデータ処理能力及び/又は命令実行能力を有するその他の形式の処理ユニット及び相応するコンピュータ命令によりこれらのユニットを実現することができる。
例えば、第1の取得部1301は、第1のトレーニングデータセット及び前記第1のトレーニングデータセットの第1の事前処理結果を取得することができる。
例えば、第1のトレーニングデータセットは、大量のテキストデータを含むことができる。例えば、第4のモデルで第1のトレーニングデータセットを処理することにより第1の事前処理結果を取得することができる。例えば、当該トレーニング装置1300を用いて圧縮モデルをトレーニングしようとする場合、第4のモデルは、図1を参照しながら説明されるテキスト処理方法の簡易圧縮モデルであってもよく、第1の事前処理結果は、上記の簡易圧縮モデルにより取得される圧縮テキストであってもよい。
例えば、第1のトレーニング部1302は、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、第2のモデルを取得するように、第1のモデルをトレーニングすることができる。
例えば、第2の取得部1303は、第2のトレーニングデータセット及び前記第2のトレーニングデータセットの第2の事前処理結果を取得することができる。
第2のトレーニングデータセットは、少ないデータしか含まなくてもよい。第2のトレーニングデータセットよりも遥かに多い数の第1のトレーニングデータセットを用いて第1のモデルを事前トレーニングすることにより、第2のモデルを取得したため、次に少ないデータを含む第2のトレーニングデータセットを用いて第2のモデルを微調整してトレーニングすることにより、所望のトレーニングモデルを取得することができる。例えば、第2のトレーニングデータセットを人工タグ付けにより第2の事前処理結果を取得することができる。第2のトレーニングデータセットが少量データしか含まないため、タグ付けコストを低減しかつ開発サイクルを短縮することができる。
例えば、第2のトレーニング部1304は、前記第2のトレーニングデータセット及び前記第2の事前処理結果を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングすることができ、前記第1の事前処理結果は、前記第3のモデルに関連する第4のモデルに基づいて取得される。
例えば、第1のトレーニング部1302は、前記第1のトレーニングデータセット、前記第1の事前処理結果及び判別器を用いて前記第1のモデルをトレーニングして、第2のモデルを取得することができ、前記判別器は、トレーニングされる前記第1のモデルの出力結果が所定の規則に従うか否かに基づいて前記第1のモデルをトレーニングする。
例えば、前記判別器は、前記第1のモデルの入力及び出力に基づいて予めトレーニングされてなることができる。或いは、例えば、第1のモデルと判別器のトレーニングを反復し、取得される判別器の正確率をより高くすることができる。
例えば、以下の損失関数Lを用いて前記第1のモデルをトレーニングすることができる。
=L+L …(3)
ここで、Lは、第1のトレーニングデータセット及び前記第1の事前処理結果に基づいて取得される損失関数を示し、Lは、判別器に基づいて取得される損失関数を示す。
例えば、第2のトレーニング部1304は、前記第2のトレーニングデータセット、前記第2の事前処理結果及び判別器を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングすることができ、前記判別器は、トレーニングされる前記第2のモデルの出力結果が所定の規則に従うか否かに基づいて前記第2のモデルをトレーニングすることができる。
例えば、以下の損失関数Lを用いて、前記第2のモデルをトレーニングすることができる。
=L+L …(4)
ここで、Lは、第2のトレーニングデータセット及び前記第2の事前処理結果に基づいて取得される損失関数を示し、Lは、判別器に基づいて取得される損失関数を示す。
例えば、前記トレーニング装置1300は、テキスト処理分野に適用することができ、前記第2のモデル、前記第3のモデル、前記第4のモデルは、テキスト圧縮、テキスト翻訳、情報抽出及びテキスト生成における少なくとも一つに使用され、前記判別器は、出力結果が所定の文規則に従うか否かを判断することができる。例えば、判別器は、出力文が構文的な規則に従うか否かを判断することができる。
以下、図16を参照して、本開示の実施形態によるトレーニングデバイス1600について説明する。図16は、本開示の実施形態によるトレーニングデバイスの模式図である。本実施形態のトレーニングの機能は、以上の図9を参照しながら説明する方法の詳細が同じであるため、ここで便利のため、同じ内容の詳細な説明を省略する。
本開示のトレーニングデバイスは、プロセッサ1602と、コンピュータ可読な命令を記憶するメモリ1601と、を含むトレーニングデバイスであって、前記コンピュータ可読な命令が前記プロセッサにより実行される場合、第1のトレーニングデータセット及び前記第1のトレーニングデータセットの第1の事前処理結果を取得することと、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、第2のモデルを取得するように、第1のモデルをトレーニングすることと、第2のトレーニングデータセット及び前記第2のトレーニングデータセットの第2の事前処理結果を取得することと、及び前記第2のトレーニングデータセット及び前記第2の事前処理結果を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングことと、を含み、前記第1の事前処理結果が前記第3のモデルに関連する第4のモデルに基づいて取得され、かつ前記第2のトレーニングデータセットの数が前記第1のトレーニングデータセットの数よりも少ない、トレーニング方法を実現する。
異なる実施形態におけるトレーニング装置1300及びトレーニングデバイス1600の技術効果は、本開示の実施形態に提供されるトレーニング方法の技術効果を参照することができ、ここで説明を省略する。
トレーニング装置1300及びトレーニングデバイス1600は、様々な適切な電子機器に用いることができる。
本開示は、さらに、コンピュータ可読な命令1201を記憶する、コンピュータ可読な記憶媒体1200を含み、当該コンピュータ可読な命令がコンピュータにより実行される場合、第1のトレーニングデータセット及び前記第1のトレーニングデータセットの第1の事前処理結果を取得することと、前記第1のトレーニングデータセット及び前記第1の事前処理結果を用いて、第2のモデルを取得するように、第1のモデルをトレーニングすることと、第2のトレーニングデータセット及び前記第2のトレーニングデータセットの第2の事前処理結果を取得することと、及び前記第2のトレーニングデータセット及び前記第2の事前処理結果を用いて、第3のモデルを取得するように、前記第2のモデルをトレーニングことと、を含み、前記第1の事前処理結果が前記第3のモデルに関連する第4のモデルに基づいて取得され、かつ前記第2のトレーニングデータセットの数が前記第1のトレーニングデータセットの数よりも少ない、トレーニング方法を実現する。
<ハードウェア構成>
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
例えば、本開示の一実施形態における電子機器は、本開示の属性識別方法の処理を実行するコンピュータとして機能してもよい。図17は、本開示の一実施形態による電子機器のハードウェア構成の一例を示す図である。上記の電子機器10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。ユーザ端末及び基地局のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
例えば、プロセッサ1001は1つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、1のプロセッサで実行されてもよいし、処理が同時に、逐次に、又はその他の手法で、1以上のプロセッサで実行されてもよい。なお、プロセッサ1001は、1以上のチップで実装されてもよい。
電子機器10における各機能は、例えば、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信や、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。
また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上記の実施形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器10の制御部401は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。
メモリ1020は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、RAM(Random Access Memory)、その他の適切な記憶媒体の少なくとも1つで構成されてもよい。メモリ1020は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施形態に係る無線通信方法を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク、フロッピー(登録商標)ディスク、光磁気ディスク(例えば、コンパクトディスク(CD-ROM(Compact Disc ROM)など)、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック(stick)、キードライブ(key driver))、磁気ストライプ、データベース、サーバ、その他の適切な記憶媒体の少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。
通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LED(Light Emitting Diode)ランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
また、プロセッサ1001やメモリ1002などの各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
また、電子機器10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1010は、これらのハードウェアの少なくとも1つで実装されてもよい。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び/又は無線技術(赤外線、マイクロ波など)を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本明細書で説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
本明細書で使用する「第1の」、「第2の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1及び第2の要素の参照は、2つの要素のみが採用され得ること又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
本明細書又は特許請求の範囲で「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が使用されている場合、これらの用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
当業者に理解されるように、本出願の各方面は、いくつかの特許可能な種類または状況によって説明又は解釈することができ、新規および有用なプロセス、機械、製品または物質の組み合わせを含み、或いはそれらに対する任意の新規又は有用な改良を含む。それに応じて、本出願の各方面は、完全にハードウェアによって実行されてもよく、或いは、完全にソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)によって実行されてもよく、或いは、ハードウェアとソフトウェアの組み合わせによって実行されてもよい。上記のハードウェアまたはソフトウェアは、「データブロック」、「モジュール」、「エンジン」、「ユニット」、「コンポーネント」、または「システム」と呼ぶことができる。さらに、本出願の各方面は、1つまたは複数のコンピュータ可読媒体内にあるコンピュータ製品であってもよく、当該製品は、コンピュータ可読プログラムコードを含む。
本出願は、本出願の実施形態を説明するために特定の用語を使用する。「一実施形態」、「一つの実施形態」、および/または「いくつかの実施形態」とは、本願の少なくとも1つの実施形態に関連する特定の特徴、構造、または特性を意味する。したがって、本明細書において異なる位置で2回以上言及される「一実施形態」または「一つの実施形態」または「代替的な実施形態」は、必ずしも同じ実施形態を意味するものではないことを理解すべきである。さらに、本出願の1つまたは複数の実施形態に係る特定の特徴、構造、または特性を適切に組み合わせることができる。
他に定義されない限り、本明細書で用いられる全ての用語(技術用語及び科学用語を含む)は、本開示が属する領域の当業者によって理解されるものと同じ意味を有する。また、一般的な辞書に定義されているような用語は、本明細書で明確に定義されていない限り、関連技術の文脈におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、理想化されまたは極端に形式化された意味で解釈されるべきではない。
以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。

Claims (10)

  1. 一つ又は複数の入力文句を受信することと、
    前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、
    前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、
    を含む、テキスト処理方法。
  2. 前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、
    前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第1の構文木を構築することと、
    前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することと、
    を含む、請求項1に記載の方法。
  3. 前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第1の構文木を圧縮することは、
    前記一つ又は複数のキーポイントに基づいて、前記第1の構文木における全てのキーポイントをカバーする最も短い経路を決定することと、
    前記圧縮結果として、前記最も短い経路に対応する単語を組み合わせることと、
    を含む、請求項2に記載の方法。
  4. 前記第1の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される、請求項2または3に記載の方法。
  5. 複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、
    前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する、請求項1に記載の方法。
  6. 前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、
    所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、請求項1~5のいずれか一項に記載の方法。
  7. 所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、
    キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、請求項6に記載の方法。
  8. 前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第2の構文木を構築すること、
    前記第2の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得すること、
    前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすること、により、前記キーポイント識別モデルをトレーニングする、請求項7に記載の方法。
  9. 一つ又は複数の入力文句を受信する受信部と、
    前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する識別部と、
    前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する圧縮部と、
    を含む、テキスト処理装置。
  10. プロセッサと、
    コンピュータ可読な命令を記憶するメモリと、
    を含む、テキスト処理デバイスであって、
    一つ又は複数の入力文句を受信することと、
    前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、
    前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、
    を含むテキスト処理方法を、前記コンピュータ可読な命令が前記プロセッサにより実行される場合に実行する
    テキスト処理デバイス。
JP2021152385A 2020-09-27 2021-09-17 テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体 Pending JP2022055334A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011030326.0A CN114281925A (zh) 2020-09-27 2020-09-27 文本处理方法、装置、设备以及计算机可读存储介质
CN202011030326.0 2020-09-27

Publications (1)

Publication Number Publication Date
JP2022055334A true JP2022055334A (ja) 2022-04-07

Family

ID=80867515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021152385A Pending JP2022055334A (ja) 2020-09-27 2021-09-17 テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体

Country Status (2)

Country Link
JP (1) JP2022055334A (ja)
CN (1) CN114281925A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997164A (zh) * 2022-05-31 2022-09-02 北京深言科技有限责任公司 文本生成方法及装置

Also Published As

Publication number Publication date
CN114281925A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN107924483B (zh) 通用假设排序模型的生成与应用
US20230142217A1 (en) Model Training Method, Electronic Device, And Storage Medium
US20190163691A1 (en) Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
US10102191B2 (en) Propagation of changes in master content to variant content
CN103970798B (zh) 数据的搜索和匹配
US10002128B2 (en) System for tokenizing text in languages without inter-word separation
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN111401066A (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
US20200372088A1 (en) Recommending web api's and associated endpoints
TW201606750A (zh) 使用外國字文法的語音辨識
CN111382260A (zh) 一种检索文本纠错方法、装置和存储介质
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN111178076A (zh) 命名实体识别与链接方法、装置、设备及可读存储介质
US20220414463A1 (en) Automated troubleshooter
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
JP2022055334A (ja) テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体
JP7106647B2 (ja) 社会的感情および自然言語生成の量子重ね合せおよび量子もつれ
CN111492364B (zh) 数据标注方法、装置及存储介质
JP2022055340A (ja) トレーニング処理方法、装置、デバイス及びコンピュータ可読な記憶媒体
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
US11289095B2 (en) Method of and system for translating speech to text
CN114595696A (zh) 实体消歧方法、实体消歧装置、存储介质与电子设备
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20230928