JP2022055334A

JP2022055334A - テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体

Info

Publication number: JP2022055334A
Application number: JP2021152385A
Authority: JP
Inventors: シーホングオ; Xihong Guo; ヤーヂュオグワァン; Yazhuo Guan; ウェイリィウ; Wei Liu; アンシンリ; An-Shin Lee; ランチェン; Lan Chen; 一成中村; Kazunari Nakamura; 拓藤本; Hiroshi Fujimoto; 大志池田; Hiroshi Ikeda
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-09-27
Filing date: 2021-09-17
Publication date: 2022-04-07
Also published as: CN114281925A

Abstract

【課題】圧縮結果が全てのキーポイントをカバーしかつ構文的な問題を考慮する必要がないようにすることができるテキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。【解決手段】テキスト処理方法は、一つ又は複数の入力文句を受信することと、一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む。【選択図】図１

Description

本出願は、テキスト処理分野に関し、かつ具体的にテキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体に関するものである。

近年、コンピュータ処理技術の高速化に伴い、テキスト中の重要な情報をより精細で迅速に把握することが可能になっている。文句の圧縮は、冗長な文句を的確な文句に変換する方法である。この技術は主題の自動取得、要約の生成、質疑応答システムなどの技術に広く用いられている。

従来の文句圧縮方法としては、文句に関する構文木を構築し、構文木の枝全体を削減することで圧縮文句を生成する方法や、ニューラルネットワークによる圧縮モデルをトレーニングすることで文句圧縮を行う方法がある。構文木の枝全体を削減することで圧縮文句を生成する方法は、構文的な問題を招く可能性があり、ニューラルネットワークによる圧縮モデルを訓練することで文句圧縮を行うことは、大量のトレーニングデータが必要であり、人件コストが大きい。

上記の問題に鑑み、本開示は、テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。

本開示の一態様によれば、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、テキスト処理方法を提供する。

本開示の一例によれば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することと、を含む。

本開示の一例によれば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することは、前記一つ又は複数のキーポイントに基づいて、前記第１の構文木における全てのキーポイントをカバーする最も短い経路を決定することと、前記圧縮結果として、前記最も短い経路に対応する単語を組み合わせることと、を含む。

本開示の一例によれば、前記第１の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される。

本開示の一例によれば、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する。

本開示の一例によれば、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、を含む。

本開示の一例によれば、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む。

本開示の一例によれば、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第２の構文木を構築すること、前記第２の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得すること、前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすること、により前記キーポイント識別モデルをトレーニングする。

本開示の一例によれば、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、さらに、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含み、前記付加情報は、所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含む。

本開示の一例によれば、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別する。

本開示の一例によれば、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別する。

本開示の一例によれば、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別する。

本開示の一例によれば、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例する。

本開示の一態様によれば、一つ又は複数の入力文句を受信する受信部と、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する識別部と、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する圧縮部と、を含む、テキスト処理装置を提供する。

本開示の一例によれば、前記圧縮部は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築し、及び、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮する。

本開示の一例によれば、前記圧縮部は、前記一つ又は複数のキーポイントに基づいて、前記第１の構文木における全てのキーポイントをカバーする最も短い経路を決定し、及び、前記圧縮結果として前記最も短い経路に対応する単語を組み合わせる。

本開示の一例によれば、前記識別部は、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、かつ、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する。

本開示の一例によれば、前記識別部は、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。

本開示の一例によれば、前記識別部は、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。

本開示の一例によれば、前記識別部は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第２の構文木を構築することと、前記第２の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得することと、前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすることにより、前記キーポイント識別モデルをトレーニングする。

本開示の一態様によれば、プロセッサと、コンピュータ可読な命令を記憶するメモリと、を含むテキスト処理デバイスであって、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することとを含むテキスト処理方法を、前記コンピュータ可読な命令が前記プロセッサにより実行される場合に実行する、テキスト処理デバイスを提供する。

本開示の一態様によれば、上記のいずれかの態様に記載のテキスト処理方法をコンピュータに実行させる、コンピュータ可読なプログラムを記憶するコンピュータ可読な記憶媒体を提供する。

本開示の上記の態様では、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構文木を構築し、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。

添付図面を参照して本開示の実施形態をより詳細に説明することにより、本開示の上記及び他の目的、特徴、及び利点がより明らかになる。図面は、本開示の実施形態のさらなる理解を提供し、明細書の一部を構成し、本開示の実施形態と共に本開示を説明するが、本開示を限定するものではない。図面において、同じ符号は一般に同じ要素又はステップを表す。
本開示の実施形態によるテキスト処理方法のフローチャートである。本開示の実施形態によるキーポイント（重要点）識別モデルのトレーニング方法のフローチャートである。本開示の実施形態によるキーポイント識別モデルをトレーニングする一例を示す模式図である。本開示の実施形態により構築される第１の構文木の一例を示す模式図である。本開示の実施形態により構築される第１の構文木の別の例を示す模式図である。本開示の実施形態により構築される第１の構文木の別の例を示す模式図である。本開示の実施形態により構築される第１の構文木の又別の例を示す模式図である。本開示の実施形態による複数の入力文句の処理方法のフローチャートである。本開示の実施形態によるテキスト処理方法により取得される圧縮結果の一例を示す模式図である。本開示の実施形態によるトレーニング方法のフローチャートである。本開示の実施形態によるトレーニング方法の模式図である。本開示の実施形態によるトレーニング方法の別の模式図である。本開示の実施形態によるテキスト処理装置の機能ブロック図である。本開示の実施形態によるテキスト処理デバイスの機能ブロック図である。本開示の実施形態によるコンピュータ可読な記憶媒体の模式図である。本開示の実施形態によるトレーニング装置の機能ブロック図である。本開示の実施形態によるトレーニングデバイスの機能ブロック図である。本開示の実施形態にかかる電子機器のハードウェア構成の一例を示す図である。

以下、本開示の実施形態における図面を参照しながら、本開示の実施形態における技術的解決策を明確かつ完全に記載する。ここで記載される実施形態は、本開示の一部の実施形態に過ぎず、全ての実施形態ではないことが明らかである。本開示の実施形態に基づいて、創造的労働なしに当業者により得られる他の全ての実施形態は、本開示の保護範囲内に入るものとする。

本願では、本願の実施形態による方法のステップを説明するためにフローチャートを使用する。なお、前又は後のステップは必ずしも順序どおりに正確に行われるとは限らないことが理解されるべきである。逆に、順序を逆にしたり、さまざまなステップを同時に処理したりできる。また、これらのプロセスに他の操作を追加したり、これらのプロセスから１つ又は複数のステップを削除したりすることもできる。

まず、図１を参照して、本開示の実施形態を実現するためのテキスト処理方法１００について説明する。本開示では、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構文木を構築し、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより、圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。

以下、図面を参照しながら本開示の実施形態及びその例について詳細に説明する。

本開示の少なくとも一つの実施形態は、テキスト処理方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。以下、いくつかの例及び実施形態を介して、本開示の少なくとも一つの実施形態により提供されるテキスト処理について非限定的に説明するが、以下で説明されるとおり、互いに衝突しない限り、これらの具体的な例及び実施形態における異なる特徴は、互いに組み合わせて新たな例及び実施形態を得ることができ、これらの新たな例及び実施形態も、いずれも本開示の保護範囲に属する。

以下、図１～８を参照して、本開示の実施形態によるテキスト処理方法について説明する。

まず、図１を参照して、本開示の実施形態によるテキスト処理方法１００について説明する。当該方法は、コンピュータ等で自動的に完成されてもよい。例えば、当該方法は、テキストの要約抽出、テキストのまとめ、主題の自動取得及び質疑応答システム等に適用できる。例えば、当該テキスト処理取得方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせで実現することができ、例えば、携帯電話機、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバ等のデバイスにおけるプロセッサによりロードされ実行されることができる。

図１に示すように、当該テキスト処理方法は、以下のステップＳ１０１～Ｓ１０３を含む。

ステップＳ１０１において、一つ又は複数の入力文句を受信する。

ステップＳ１０２において、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する。

ステップＳ１０３において、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する。

ステップＳ１０１に関して、例えば、一つ又は複数の入力文句は、ニュース、製品紹介、論文等であってもよく、ここで限定されない。

ステップＳ１０２に関して、例えば、一つ又は複数のキーポイントは、ユーザが所望する一つ又は複数の字又は単語であってもよい。

例えば、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することとは、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含むことができる。

例えば、前記の所定の規則は、いずれの既知の重要語句や単語や字を予測する規則であってもよい。例えば、人名、組織、地域、固有の用語、一般名、補助名、又は特殊な字を含む断片（例えば、カスタム単語又は単語群）を一つ又は複数のキーポイントとしてもよい。

例えば、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。

以下、例を挙げて、図２～３を参照して、キーポイント識別モデルについて説明する。図２は、本開示の実施形態によるキーポイント識別モデルのトレーニング方法２００のフローチャートであり、図３は、本開示の実施形態によるキーポイント識別モデルをトレーニングする例を示す模式図である。なお、キーポイントを識別するキーポイント識別モデルは、いずれの既知のモデルであってもよく、ここで説明されるモデルが一例にすぎず、これに限定されないと理解すべきである。

図２に示すように、以下のステップにより、前記キーポイント識別モデルをトレーニングすることができる。前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第２の構文木を構築する（Ｓ２０１）。前記第２の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得する（Ｓ２０２）。前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングする（Ｓ２０３）。

例えば、当該第２の構文木は、同期木置換文法の解析木（例えば、従来の文脈自由モデルに基づく文法の解析木（ＰａｒｓｅＴｒｅｅ）、又は、同期木置換文法（ＳｙｎｃｈｒｏｎｏｕｓＴｒｅｅＳｕｂｓｔｉｔｕｔｉｏｎＧｒａｍｍａｒ、ＳＴＳＧ）に基づくモデル）のような構文木でもよい。第２の構文木は、監視／半監視／監視なしの事前トレーニングモデル（例えば、変換器からの双方向符号化表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓＦｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴ）、文脈に敏感な事前トレーニングテキスト語意抽出モデル等）に基づいて取得されることができ、ここで限定されない。

例えば、図３に示すように、文句における字又は単語の構成は、深層と表層の２つの階層がある。第２の構文木３１により入力文句３０における各々の字又は単語の深層情報３２と表層情報３３を取得することができる。或いは、例えば、ＢＥＲＴモデルに基づいて取得される第２の構文木により入力文句における各々の字又は単語の深層情報３２を生成し、そして文脈に敏感な事前トレーニングテキスト語意抽出モデルにより入力文句における各々の字又は単語の表層情報３３を直接に抽出することができる。なお、その他の方法を採用して入力文句における各々の字又は単語の深層情報３２と表層情報３３を取得することもできるが、ここで限定されないと理解されるべきである。

次に、図３に示すように、入力文句における各々の字又は単語の深層情報３２及び／又は表層情報３３に基づいてキーポイント識別モデル３４をトレーニングすることができる。ここでわかるように、入力文句における各々の字又は単語の表層情報のみに基づいてトレーニングされるキーポイント識別モデルと比較して、入力文句における各々の字又は単語の深層情報に基づいてトレーニングされるキーポイント識別モデルの識別効果が、より優れる。また、構文木を用いて各々の字又は単語の深層情報を取得する方式は、より簡単である。

或いは、例えば、前記の所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することとは、さらに、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することを含み、前記付加情報は、所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含むことができる。

或いは、例えば、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別することができる。

或いは、例えば、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別することができる。例えば、一定の規則に基づいて、統計学習（例えば、単語頻度－逆文書頻度指数（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、ＴＦ－ＩＤＦ）、劣モジュラ関数（ＳｕｂｍｏｄｕｌａｒＦｕｎｃｔｉｏｎ）、潜在意味解析（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ、ＬＳＡ）等）に基づいて、又は深層学習方法（例えば、分類法、回帰法等）に基づいて、前記一つ又は複数の入力文句の各々の入力文の単語を採点し、前記一つ又は複数のキーポイントを識別することができる。例えば、構文木が表す単語又は字の特徴に基づいて各々の入力文の単語を採点することもできる。

或いは、例えば、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別することができる。

なお、上記の個別の一つの方法又は上記の複数を組み合わせた方法により前記一つ又は複数のキーポイントを識別することができるが、ここで限定されないと理解されるべきである。

次に、図１のステップＳ１０３に戻り、例えば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することと、を含むことができる。

例えば、第１の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築されてもよい。依存関係は、依存文法に準ずる。依存文法とは、言語単位内の成分間の依存関係を解析することによりその構文構成を解釈することを意味し、テキスト内の中核動詞がその他の成分を支配する中心成分であるが、中核動詞自体がその他のいずれの成分により支配されず、全ての支配される成分が何らかの関係で支配者に従属すると主張する。なお、依存文法は、必要に応じて異なるの規則に準ずることができるが、特定の依存規則に限定されないと理解されるべきである。

以下、図４～６を参照して本開示の実施形態による第１の構文木の構築例について説明する。

図４に、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される第１の構文木を示す。当該構文木では、第１の構文木の各々のノードＡからＫが前記入力文句の各々の単語に対応し、上から下へのＡＢＣＤＥＦＧＨＩＪＫとは、各々の単語の出現順序に従って構築される出現順序経路であり、右側のＡからＣ及びＤからＩ等の矢印は、各々の入力文句における各々の単語の間の依存関係に基づいて構築される依存経路である。ここでわかるように、キーポイントがＢ、Ｄ、Ｅ及びＪであると識別される場合、全てのキーポイントをカバーするために、当該第１の構文木を、ＡＢＣＤＥＦＫ又はＡＢＣＤＥＦＩＪＫに圧縮することができる。

例えば、前記一つ又は複数のキーポイントに基づいて、前記第１の構文木における全てのキーポイントをカバーする最も短い経路を決定し、そして前記圧縮結果として前記最も短い経路に対応する単語を組み合わせることができる。例えば、図４では、キーポイントがＢ、Ｄ、Ｅ及びＪであると識別される場合、前記圧縮結果として前記最も短い経路であるＡＢＣＤＥＦＫに対応する単語を組み合わせることができる。

なお、図５～６に示すような第１の構文木は、一つの特定の依存関係に準ずる例にすぎず、ここで限定されなく、本開示の第１の構文木は、その他のいずれの適切な依存関係に準ずることができると理解されるべきである。

また、複数の入力文句について、複数の繰り返しの単語が存在する可能性がある。そのため、前記一つ又は複数のキーポイントを識別する前に、先に複数の入力文句の繰り返しの単語を処理して、キーポイントを識別する際の処理複雑度を低減することができる。

図７に、本開示の実施形態による複数の入力文句の処理の方法３００のフローチャートである。図７に示すように、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し（Ｓ３０１）、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する（Ｓ３０２）。

例えば、所定回数は、統計データによって予め指定されてもよく、ここで限定されない。例えば、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて複数の入力文句に対して第３の構文木を構築することができ、入力文句における所定回数繰り返す単語を削除した後に第３の構文木の経路が中断となると、当該入力文句における所定回数繰り返す単語を削除することができない。

一部の入力文句における所定回数繰り返す単語を予め削除することにより、キーポイントを識別する際の処理複雑度を低減し、処理効率を向上させることができる。

図８は、本開示の実施形態によるテキスト処理方法により取得される圧縮結果の一例を示す。

本開示は、一つ又は複数のキーポイントを識別することによりキーポイントに基づいて圧縮結果を取得するように構文木を圧縮し、それにより圧縮結果が全てのキーポイントをカバーし、かつ構文的な問題を考慮する必要がないようにすることができる。

また、上記のテキスト処理方法により取得されるの一つ又は複数の入力文句及び当該一つ又は複数の入力文句の圧縮結果をトレーニングデータセットとして、圧縮モデルをトレーニングすることにより、トレーニング複雑度を低減し、かつトレーニングされる圧縮モデルの正確度を向上させることができる。

本開示の少なくとも一つの実施形態は、トレーニング方法、装置、デバイス及びコンピュータ可読な記憶媒体を提供する。以下、いくつかの例及び実施形態を介して、本開示の少なくとも一つの実施形態により提供されるトレーニング方法について非限定的に説明するが、以下で説明されるとおり、互いに衝突しない限り、これらの具体的な例及び実施形態における異なる特徴は、互いに組み合わせて新たな例及び実施形態を得ることができ、これらの新たな例及び実施形態も、いずれも本開示の保護範囲に属する。

以下、図９～１１を参照して、本開示の実施形態によるトレーニング方法について説明する。

本開示のトレーニング方法は、まず、取得しようとする目標モデルと同じ作用の簡易モデルに基づいて大量のトレーニングデータセットを取得し、かつ当該大量データセットを用いて目標モデルの初期モデルをトレーニングし、そしてタグ付けが少ないトレーニングデータセットを用いてトレーニングされた初期モデルを微調整して最終目標モデルを取得することにより、タグ付けが少ないデータセットを用いて取得しようとする目標モデルを取得することができ、処理複雑度及びタグ付けコストを低減しかつ開発サイクルを短縮する。

まず、図９を参照して、本開示の実施形態によるトレーニング方法４００について説明する。

例えば、当該方法は、コンピュータ等で自動的に完成されてもよい。当該トレーニング方法は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせで実現することができ、例えば、携帯電話、タブレット、ノートパソコン、デスクトップパソコン、ネットワークサーバ等デバイスにおけるプロセッサによりロードされ実行されることができる。

図９に示すように、当該トレーニング方法は、以下のステップＳ１０１～Ｓ１０４を含む。

ステップＳ４０１において、第１のトレーニングデータセット及び前記第１のトレーニングデータセットの第１の事前処理結果を取得する。

ステップＳ４０２において、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、第２のモデルを取得するように、第１のモデルをトレーニングする。

ステップＳ４０３において、第２のトレーニングデータセット及び前記第２のトレーニングデータセットの第２の事前処理結果を取得する。

ステップＳ４０４において、前記第２のトレーニングデータセット及び前記第２の事前処理結果を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングして、前記第１の事前処理結果が前記第３のモデルに関連する第４のモデルに基づいて取得され、かつ前記第２のトレーニングデータセットの数が前記第１のトレーニングデータセットの数よりも少ないである。

例えば、当該トレーニング方法４００は、テキスト処理分野に適用することができ、前記第２のモデル、前記第３のモデル、前記第４のモデルは、テキスト圧縮、テキスト翻訳、情報抽出及びテキスト生成における少なくとも一つに使用される。本開示のトレーニング方法４００は、テキスト処理分野に限らず、いずれの適切な分野に適用できるが、ここで限定されない。

図１０は、本開示の実施形態によるトレーニング方法４００の模式図である。理解を容易にするために、以下、当該トレーニング方法をテキスト処理分野の圧縮モデルに適用することを例として説明する。

ステップＳ４０１に関して、例えば、第１のトレーニングデータセットは、大量のテキストデータ（例えば、２００万の文）を含むことができる。例えば、第４のモデル２３で第１のトレーニングデータセット２１を処理することにより第１の事前処理結果２２を取得することができる。例えば、当該トレーニング方法４００を用いて圧縮モデルをトレーニングしようとする場合、第４のモデル２３は、図１を参照しながら説明されるテキスト処理方法の簡易圧縮モデルであってもよく、第１の事前処理結果は、上記の簡易圧縮モデルにより取得される圧縮テキストであってもよい。

例えば、前記第１の事前処理結果は、前記第４のモデルに基づいて、以下のステップにより取得される圧縮結果であってもよい。一つ又は複数の入力文句を受信するステップと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別するステップと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮するステップと、ことです。

例えば、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する前記のことは、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することと、を含むことができる。

また、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例し、かつ前記トレーニング方法は、前記第４のモデルにより取得される異なる長さの圧縮結果と前記第１の事前処理結果とすることにより、トレーニングデータセットの文法及び長さ構成を豊富にすることができる。

圧縮結果の取得方法は、上記の図１～８を参照しながら取得することができ、ここで説明を省略する。

例えば、第４のモデル２３の作用は、最終的にトレーニングにより取得しようとするモデルの作用と関連するため、トレーニングにより取得されるモデルの正確率をより高くすることができる。

ステップＳ４０２に関して、例えば、第１のモデル２４は、初期化された圧縮モデルであってもよい。例えば、第１のモデル２４は、テキストにおける字又は単語を単に削除することにより圧縮結果を取得することができる。例えば、上記の第１のトレーニングデータセット２１及び第１の事前処理結果２２（例えば、図１に示すような簡易圧縮モデルに基づいて取得される結果）を用いて第１のモデル２４をトレーニングすることにより、第２のモデル２５を取得することができる。

ステップＳ４０３～Ｓ４０４に関して、例えば、第２のトレーニングデータセット２７は、少ないデータ（例えば、１０００の文）しか含まなくてもよい。第２のトレーニングデータセット２７よりも遥かに多い数の第１のトレーニングデータセット２１を用いて第１のモデル２４を事前トレーニングすることにより、第２のモデル２５を取得したため、次に少ないデータを含む第２のトレーニングデータセットを用いて第２のモデルを微調整してトレーニングすることにより、所望のトレーニングモデル（即ち、第３のモデル２６）を取得することができる。例えば、第２のトレーニングデータセット２７を人工タグ付けにより第２の事前処理結果２８を取得することができる。第２のトレーニングデータセット２７が少量データしか含まないため、タグ付けコストを低減しかつ開発サイクルを短縮することができる。

図１０からわかるように、第１のトレーニングデータセット２１及び第３のモデル２６に関連する第４のモデル２３に基づいて取得される第１の事前処理結果２２により第１のモデルを事前トレーニングし、事前トレーニングされた第２のモデル２５を取得することができる。次に、第１のトレーニングデータセット２１よりも遥かに少ない数の第２のトレーニングデータセット２７及び第２の事前処理結果２８に基づいて第２のモデルを微調整してトレーニングすることにより、所望の第３のモデル２６を取得することができる。

例えば、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、第２のモデルを取得するように、第１のモデルをトレーニングする前記のことは、前記第１のトレーニングデータセット、前記第１の事前処理結果及び判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）を用いて前記第１のモデルをトレーニングして第２のモデルを取得することを含み、前記判別器は、トレーニングされる前記第１のモデルの出力結果が所定の規則に従うか否かに基づいて前記第１のモデルをトレーニングすることができる。

例えば、前記判別器は、前記第１のモデルの入力及び出力に基づいて予めトレーニングされてなることができる。例えば、前記判別器は、出力結果が所定の文規則に従うか否かを判断することができる。例えば、判別器は、出力文が構文的な規則に従うか否かを判断することができる。

例えば、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて第１のモデルをトレーニングする前に、第１のモデルの入力及び出力を用いて判別器を予めトレーニングすることができる。例えば、第１のモデルの入力が出力よりも構文的な規則に従う可能性が高いため、第１のモデルの入力を１（構文的な規則に従う）とし、第１のモデルの出力を０（構文的な規則に従わない）とし、判別器をトレーニングして、判別器が新たな入力を採点でき、かつ当該採点結果が０と１の間にあるようにすることができる。なお、１と０は、構文的な規則に従う相対的な程度を表示するためのものにすぎず、これらが本開示の例として限制されるものではないと理解されるべきである。

或いは、例えば、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて第１のモデルをトレーニングする過程で、第１のモデルの入力及び出力を用いて判別器を予めトレーニングすることができる。例えば、まず、第１のモデルのトレーニングを停止して、そして現在の第１のモデルの入力を１とし、現在の第１のモデルの出力を０とし、判別器をトレーニングして、判別器が新たな入力を採点でき、かつ当該採点結果が０と１の間にあるようにすることができる。次に、さらに前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、引き続き第１のモデルをトレーニングする。

或いは、例えば、第１のモデルと判別器のトレーニングを反復し、取得される判別器の正確率をより高くすることができる。

なお、上記の判別器をトレーニングするの方法は、一例にすぎず、判別器をトレーニングするの方法は、これに限定されないと理解されるべきである。

例えば、予めトレーニングされた判別器を取得した後、前記第１のトレーニングデータセット、前記第１の事前処理結果及び判別器を用いて前記第１のモデルをトレーニングして、第２のモデルを取得することができる。

例えば、以下の損失関数Ｌ_ｐを用いて前記第１のモデルをトレーニングすることができる。
Ｌ_ｐ=Ｌ_１+Ｌ_２ …（１）
ここで、Ｌ_１は、第１のトレーニングデータセット及び前記第１の事前処理結果に基づいて取得される損失関数を示し、Ｌ_２は、判別器に基づいて取得される損失関数を示す。このトレーニングの間に、判別器の目標は、モデルの出力結果を構文的な規則に従わせる（例えば、１に近づく）ことである。

例えば、前記第２のトレーニングデータセット及び前記第２の事前処理結果を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングする前記のことは、前記第２のトレーニングデータセット、前記第２の事前処理結果及び判別器を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングすることを含み、前記判別器は、トレーニングされる前記第２のモデルの出力結果が所定の規則に従うか否かに基づいて前記第２のモデルをトレーニングすることができる。

例えば、以下の損失関数Ｌ_ｑを用いて、前記第２のモデルをトレーニングすることができる。
Ｌ_ｑ=Ｌ_３+Ｌ_４ …（２）
ここで、Ｌ_３は、第２のトレーニングデータセット及び前記第２の事前処理結果に基づいて取得される損失関数を示し、Ｌ_４は、判別器に基づいて取得される損失関数を示す。

判別器を用いて第１のモデル及び第２のモデルをトレーニングすることにより、第１のモデル及び第２のモデルの出力結果が所定の規則（例えば、構文的な規則）に従うか否かを監視し、最終的にトレーニングにより取得される第３のモデルの出力結果がより正確にすることができる。

以下、図１１を参照して、本開示の実施形態によるトレーニング方法の別の模式図について説明する。

図１１に示すように、本開示のトレーニング方法は、事前トレーニング段階６０と、トレーニング段階６２との２つの段階を含む。事前トレーニング段階６０において、大量データセット５１により事前トレーニングモデル５２をトレーニングする。例えば、当該大量データセット５１は、以上に記載される第１のトレーニングデータセット及び前記第１のトレーニングデータセットの第１の事前処理結果であってもよい。ここで、当該トレーニング方法を文圧縮モデルのトレーニングに用いる場合、当該第１の事前処理結果は、図１に示すようなテキスト処理方法により取得されるの圧縮結果であってもよい。例えば、トレーニング段階では、少量データセット５４により、大量データセットで既にトレーニングされた事前トレーニングモデル５２を微調整してトレーニングする。例えば、当該少量データセット５４は、以上に記載される第２のトレーニングデータセット及び前記第２のトレーニングデータセットの第２の事前処理結果であってもよい。例えば、第２のトレーニングセットが、数が少ないデータを含むため、人工タグ付け等のコスト又は複雑度が大きいが正確度も高い処理を用いて第２の事前処理結果を取得して、大量データセットで既にトレーニングされた事前トレーニングモデル５２を微調整してトレーニングすることができ、それによりその出力の正確度を向上させる。

また、図１１に示すように、事前トレーニング段階６０及びトレーニング段階６２では、さらに、判別器５７により事前トレーニングモデル５２をトレーニングして、事前トレーニングモデル５２の出力結果が所定の規則に従うようにすることができる。

本開示の上記の態様では、まず、大量データセットを用いて目標モデルの初期モデルをトレーニングし、そしてタグ付けが少ないトレーニングデータセットを用いてトレーニングされた初期モデルを微調整して最終目標モデルを取得して、タグ付けが少ないデータセットを用いることにより取得しようとする目標モデルを取得することができ、処理複雑度及びタグ付けコストを低減しかつ開発サイクルを短縮する。

なお、本開示に記載のトレーニング方法は、テキスト処理分野に限らず、或いは、例えば、本開示のトレーニング方法は、図像処理分野等にも使用することができると理解されるべきである。また、本開示に記載のトレーニング方法は、テキスト圧縮モデルのトレーニングに限定されない。

或いは、例えば、本開示のトレーニング方法は、トレーニング機械翻訳モデルにも使用することができる。例えば、簡単な翻訳システム（統計機械翻訳システム又は語彙マッピングシステム）を構築し、かつ大量データセットを用いて当該翻訳システムに基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。

或いは、例えば、本開示のトレーニング方法は、トレーニング情報抽出モデルにも使用することができる。例えば、実体関係に対して一つの統計辞書を構築し、かつ大量データセットを用いて当該統計辞書に基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。

或いは、例えば、本開示のトレーニング方法は、トレーニングテキスト生成モデルにも使用することができる。例えば、一つの簡単なテキスト抽出情報システムを構築し、かつ大量データセットを用いて当該簡単なテキスト抽出情報システムに基づいて事前トレーニングモデルをトレーニングし、そして少量データセットを使用して当該事前トレーニングモデルを微調整することができる。

以上、図１～８を参照しながら、本開示の実施形態によるテキスト処理方法について説明する。以下、本開示の実施形態によるテキスト処理装置について説明する。

図１２は、本開示の実施形態によるテキスト処理装置を図示する機能ブロック図である。図１２に示すように、本開示の実施形態によるテキスト処理装置１０００は、受信部１０１０と、識別部１０２０と、圧縮部１０３０とを含む。上記の各ブロックは、それぞれ、以上に図１から図８を参照しながら説明した本開示の実施形態によるテキスト処理方法の各々のステップを実行することができる。当業者であれば、これらのユニットブロックは、単独にハードウェアで、単独にソフトウェアで、又はそれらの組み合わせで様々な方式により実現されてもよく、かつ本開示は、それらのいずれかに限定されないと理解する。例えば、中央処理ユニット（ＣＰＵ）、テキストプロセッサ（ＧＰＵ）、テンソルプロセッサ（ＴＰＵ）、フィールドプログラム可能な論理ゲートアレイ（ＦＰＧＡ）又はデータ処理能力及び／又は命令実行能力を有するその他の形式の処理ユニット及び相応するコンピュータ命令によりこれらのユニットを実現することができる。

例えば、受信部１０１０は、一つ又は複数の入力文句を受信することができ、識別部１０２０は、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができ、圧縮部１０３０は、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することができる。

例えば、一つ又は複数のキーポイントは、ユーザが所望する一つ又は複数の字又は単語であってもよい。

例えば、識別部１０２０は、所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。

例えば、識別部１０２０は、キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができる。

以下、例を挙げて、図２～３を参照して、キーポイント識別モデルについて説明する。なお、キーポイントを識別するキーポイント識別モデルは、いずれの既知のモデルであってもよく、ここで説明されるモデルが一例にすぎず、これに限定されないと理解すべきである。

図２に示すように、識別部１０２０は、以下のステップにより、前記キーポイント識別モデルをトレーニングすることができる。前記一つ又は複数の入力文句の各々の入力文句に対して、前記入力文句の単語に対応するノードを有する第２の構文木を構築する（Ｓ２０１）。前記第２の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得する（Ｓ２０２）。前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングする（Ｓ２０３）。

次に、図３に示すように、識別部１０２０は、入力文句における各々の字又は単語の深層情報３２及び／又は表層情報３３に基づいてキーポイント識別モデル３４をトレーニングすることができる。ここでわかるように、入力文句における各々の字又は単語の表層情報のみに基づいてトレーニングされるキーポイント識別モデルと比較して、入力文句における各々の字又は単語の深層情報に基づいてトレーニングされるキーポイント識別モデルの識別効果が、より優れる。また、構文木を用いて各々の字又は単語の深層情報を取得する方式は、より簡単である。

或いは、例えば、識別部１０２０は、前記の所定の規則と受信された付加情報に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することができ、前記付加情報が所望の単語、所望の語句及び前記一つ又は複数の入力文句に対応する文章標題のうち一つ又は複数を含む。

或いは、例えば、識別部１０２０は、前記一つ又は複数の入力文句の文句レベル、段落レベル、テキストレベル、データセットレベル、分野レベルのうち一つ又は複数に基づいて、前記一つ又は複数のキーポイントを識別することができる。

或いは、例えば、識別部１０２０は、前記一つ又は複数の入力文句の各々の入力文の単語を採点することにより、前記一つ又は複数のキーポイントを識別することができる。例えば、識別部１０２０は、一定の規則に基づいて、統計学習（例えば、単語頻度－逆文書頻度指数（ＴｅｒｍＦｒｅｑｕｅｎｃｙ－ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ、ＴＦ－ＩＤＦ）、劣モジュラ関数（ＳｕｂｍｏｄｕｌａｒＦｕｎｃｔｉｏｎ）、潜在意味解析（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ、ＬＳＡ）等）に基づいて、又は、深層学習方法（例えば、分類法、回帰法等）に基づいて、前記一つ又は複数の入力文句の各々の入力文の単語を採点し、前記一つ又は複数のキーポイントを識別することができる。例えば、識別部１０２０は、構文木が表す単語又は字の特徴に基づいて各々の入力文の単語を採点することもできる。

或いは、例えば、識別部１０２０は、前記一つ又は複数のキーポイントの正解統計情報、前記一つ又は複数の入力文句の各々の入力文の単語の品詞統計情報及び語意統計情報のうち一つ又は複数統計情報に基づいて、前記一つ又は複数のキーポイントを識別することができる。

なお、識別部１０２０は、上記の個別の一つの方法又は上記の複数を組み合わせた方法により前記一つ又は複数のキーポイントを識別することができるが、ここで限定されないと理解されるべきである。

次に、圧縮部１０３０は、前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することと、を含むことができる。

例えば、第１の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築されてもよい。

図４に、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される第１の構文木を示す。当該構文木では、第１の構文木の各々のノードＡからＫが前記入力文句の各々の単語に対応し、上から下へのＡＢＣＤＥＦＧＨＩＪＫとは、各々の単語の出現順序に従って構築される出現順序経路であり、右側のＡからＣ及びＤからＩ等の矢印は、各々の入力文句における各々の単語の間の依存関係に基づいて構築される依存経路である。ここでわかるように、識別されたキーポイントがＢ、Ｄ、Ｅ及びＪである場合、全てのキーポイントをカバーするために、当該第１の構文木を、ＡＢＣＤＥＦＫ又はＡＢＣＤＥＦＩＪＫに圧縮することができる。

例えば、圧縮部１０３０は、前記一つ又は複数のキーポイントに基づいて、前記第１の構文木における全てのキーポイントをカバーする最も短い経路を決定し、そして前記圧縮結果として前記最も短い経路に対応する単語を組み合わせることができる。例えば、図４では、識別されたキーポイントがＢ、Ｄ、Ｅ及びＪである場合、前記圧縮結果として前記最も短い経路であるＡＢＣＤＥＦＫに対応する単語を組み合わせることができる。ここでわかるように、前記圧縮結果の長さは、前記一つ又は複数のキーポイントの数に比例する。

また、複数の入力文句について、複数の繰り返しの単語が存在する可能性がある。そのため、前記一つ又は複数のキーポイントを識別する前に、識別部１０２０は、先に複数の入力文句の繰り返しの単語を処理して、キーポイントを識別する際の処理複雑度を低減することができる。

図７に示すように、複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し（Ｓ３０１）、前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する（Ｓ３０２）。

例えば、所定回数は、統計データによって予め指定されてもよく、ここで限定されない。例えば、識別部１０２０は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて複数の入力文句に対して第３の構文木を構築することができ、入力文句における所定回数繰り返す単語を削除した後に第３の構文木の経路が中断となると、当該入力文句における所定回数繰り返す単語を削除することができない。

識別部１０２０は、一部の入力文句における所定回数繰り返す単語を予め削除することにより、キーポイントを識別する際の処理複雑度を低減し、処理効率を向上させることができる。

以下、図１３を参照して、本開示の実施形態によるテキスト処理デバイス１１００について説明する。図１３は、本開示の実施形態によるテキスト処理デバイスの模式図である。本実施形態のテキスト処理デバイスの機能は、以上の図１を参照しながら説明する方法の詳細が同じであるため、ここで便利のため、同じ内容の詳細な説明を省略する。

本開示のテキスト処理デバイスは、プロセッサ１１０２と、コンピュータ可読な命令を記憶するメモリ１１０１とを含むテキスト処理装置であって、前記コンピュータ可読な命令が前記プロセッサにより実行される場合、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、テキスト処理方法を実現する。

異なる実施形態におけるテキスト処理装置１０００及びテキスト処理デバイス１１００の技術効果は、本開示の実施形態に提供されるテキスト処理方法の技術効果を参照することができ、ここで説明を省略する。

テキスト処理装置１０００及びテキスト処理デバイス１１００は、様々な適切な電子機器に用いることができる。

図１４は、本開示の実施形態によるコンピュータ可読な記憶媒体１２００の模式図である。

図１４に示すように、本開示は、さらに、コンピュータ可読な命令１２０１を記憶する、コンピュータ可読な記憶媒体１２００を含み、当該コンピュータ可読な命令がコンピュータにより実行される場合、一つ又は複数の入力文句を受信することと、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、を含む、コンピュータテキスト処理方法を実現する。

以上、図面を参照して、本開示の実施形態によるトレーニング方法について説明した。以下、本開示の実施形態によるトレーニング装置について説明する。

図１５は、本開示の実施形態によるトレーニング装置を図示する機能ブロック図である。図１５に示すように、本開示の実施形態によるトレーニング装置１３００は、第１の取得部１３０１と、第１のトレーニング部１３０２と、第２の取得部１３０３と、第２のトレーニング部１３０４と、を含む。上記の各ブロックは、それぞれ、以上に図９から図１１を参照しながら説明した本開示の実施形態によるテキスト処理方法の各々のステップを実行することができる。当業者であれば、これらのユニットブロックは、単独にハードウェアで、単独にソフトウェアで、又はそれらの組み合わせで様々な方式により実現されてもよく、かつ本開示は、それらのいずれかに限定されないと理解する。例えば、中央処理ユニット（ＣＰＵ）、テキストプロセッサ（ＧＰＵ）、テンソルプロセッサ（ＴＰＵ）、フィールドプログラム可能な論理ゲートアレイ（ＦＰＧＡ）又はデータ処理能力及び／又は命令実行能力を有するその他の形式の処理ユニット及び相応するコンピュータ命令によりこれらのユニットを実現することができる。

例えば、第１の取得部１３０１は、第１のトレーニングデータセット及び前記第１のトレーニングデータセットの第１の事前処理結果を取得することができる。

例えば、第１のトレーニングデータセットは、大量のテキストデータを含むことができる。例えば、第４のモデルで第１のトレーニングデータセットを処理することにより第１の事前処理結果を取得することができる。例えば、当該トレーニング装置１３００を用いて圧縮モデルをトレーニングしようとする場合、第４のモデルは、図１を参照しながら説明されるテキスト処理方法の簡易圧縮モデルであってもよく、第１の事前処理結果は、上記の簡易圧縮モデルにより取得される圧縮テキストであってもよい。

例えば、第１のトレーニング部１３０２は、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、第２のモデルを取得するように、第１のモデルをトレーニングすることができる。

例えば、第２の取得部１３０３は、第２のトレーニングデータセット及び前記第２のトレーニングデータセットの第２の事前処理結果を取得することができる。

第２のトレーニングデータセットは、少ないデータしか含まなくてもよい。第２のトレーニングデータセットよりも遥かに多い数の第１のトレーニングデータセットを用いて第１のモデルを事前トレーニングすることにより、第２のモデルを取得したため、次に少ないデータを含む第２のトレーニングデータセットを用いて第２のモデルを微調整してトレーニングすることにより、所望のトレーニングモデルを取得することができる。例えば、第２のトレーニングデータセットを人工タグ付けにより第２の事前処理結果を取得することができる。第２のトレーニングデータセットが少量データしか含まないため、タグ付けコストを低減しかつ開発サイクルを短縮することができる。

例えば、第２のトレーニング部１３０４は、前記第２のトレーニングデータセット及び前記第２の事前処理結果を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングすることができ、前記第１の事前処理結果は、前記第３のモデルに関連する第４のモデルに基づいて取得される。

例えば、第１のトレーニング部１３０２は、前記第１のトレーニングデータセット、前記第１の事前処理結果及び判別器を用いて前記第１のモデルをトレーニングして、第２のモデルを取得することができ、前記判別器は、トレーニングされる前記第１のモデルの出力結果が所定の規則に従うか否かに基づいて前記第１のモデルをトレーニングする。

例えば、前記判別器は、前記第１のモデルの入力及び出力に基づいて予めトレーニングされてなることができる。或いは、例えば、第１のモデルと判別器のトレーニングを反復し、取得される判別器の正確率をより高くすることができる。

例えば、以下の損失関数Ｌ_ｐを用いて前記第１のモデルをトレーニングすることができる。
Ｌ_ｐ=Ｌ_１+Ｌ_２ …（３）
ここで、Ｌ_１は、第１のトレーニングデータセット及び前記第１の事前処理結果に基づいて取得される損失関数を示し、Ｌ_２は、判別器に基づいて取得される損失関数を示す。

例えば、第２のトレーニング部１３０４は、前記第２のトレーニングデータセット、前記第２の事前処理結果及び判別器を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングすることができ、前記判別器は、トレーニングされる前記第２のモデルの出力結果が所定の規則に従うか否かに基づいて前記第２のモデルをトレーニングすることができる。

例えば、以下の損失関数Ｌ_ｑを用いて、前記第２のモデルをトレーニングすることができる。
Ｌ_ｑ=Ｌ_３+Ｌ_４ …（４）
ここで、Ｌ_３は、第２のトレーニングデータセット及び前記第２の事前処理結果に基づいて取得される損失関数を示し、Ｌ_４は、判別器に基づいて取得される損失関数を示す。

例えば、前記トレーニング装置１３００は、テキスト処理分野に適用することができ、前記第２のモデル、前記第３のモデル、前記第４のモデルは、テキスト圧縮、テキスト翻訳、情報抽出及びテキスト生成における少なくとも一つに使用され、前記判別器は、出力結果が所定の文規則に従うか否かを判断することができる。例えば、判別器は、出力文が構文的な規則に従うか否かを判断することができる。

以下、図１６を参照して、本開示の実施形態によるトレーニングデバイス１６００について説明する。図１６は、本開示の実施形態によるトレーニングデバイスの模式図である。本実施形態のトレーニングの機能は、以上の図９を参照しながら説明する方法の詳細が同じであるため、ここで便利のため、同じ内容の詳細な説明を省略する。

本開示のトレーニングデバイスは、プロセッサ１６０２と、コンピュータ可読な命令を記憶するメモリ１６０１と、を含むトレーニングデバイスであって、前記コンピュータ可読な命令が前記プロセッサにより実行される場合、第１のトレーニングデータセット及び前記第１のトレーニングデータセットの第１の事前処理結果を取得することと、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、第２のモデルを取得するように、第１のモデルをトレーニングすることと、第２のトレーニングデータセット及び前記第２のトレーニングデータセットの第２の事前処理結果を取得することと、及び前記第２のトレーニングデータセット及び前記第２の事前処理結果を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングことと、を含み、前記第１の事前処理結果が前記第３のモデルに関連する第４のモデルに基づいて取得され、かつ前記第２のトレーニングデータセットの数が前記第１のトレーニングデータセットの数よりも少ない、トレーニング方法を実現する。

異なる実施形態におけるトレーニング装置１３００及びトレーニングデバイス１６００の技術効果は、本開示の実施形態に提供されるトレーニング方法の技術効果を参照することができ、ここで説明を省略する。

トレーニング装置１３００及びトレーニングデバイス１６００は、様々な適切な電子機器に用いることができる。

本開示は、さらに、コンピュータ可読な命令１２０１を記憶する、コンピュータ可読な記憶媒体１２００を含み、当該コンピュータ可読な命令がコンピュータにより実行される場合、第１のトレーニングデータセット及び前記第１のトレーニングデータセットの第１の事前処理結果を取得することと、前記第１のトレーニングデータセット及び前記第１の事前処理結果を用いて、第２のモデルを取得するように、第１のモデルをトレーニングすることと、第２のトレーニングデータセット及び前記第２のトレーニングデータセットの第２の事前処理結果を取得することと、及び前記第２のトレーニングデータセット及び前記第２の事前処理結果を用いて、第３のモデルを取得するように、前記第２のモデルをトレーニングことと、を含み、前記第１の事前処理結果が前記第３のモデルに関連する第４のモデルに基づいて取得され、かつ前記第２のトレーニングデータセットの数が前記第１のトレーニングデータセットの数よりも少ない、トレーニング方法を実現する。

＜ハードウェア構成＞
なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に（例えば、有線及び／又は無線）で接続し、これら複数の装置により実現されてもよい。

例えば、本開示の一実施形態における電子機器は、本開示の属性識別方法の処理を実行するコンピュータとして機能してもよい。図１７は、本開示の一実施形態による電子機器のハードウェア構成の一例を示す図である。上記の電子機器１０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。ユーザ端末及び基地局のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

例えば、プロセッサ１００１は１つだけ図示されているが、複数のプロセッサがあってもよい。また、処理は、１のプロセッサで実行されてもよいし、処理が同時に、逐次に、又はその他の手法で、１以上のプロセッサで実行されてもよい。なお、プロセッサ１００１は、１以上のチップで実装されてもよい。

電子機器１０における各機能は、例えば、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で構成されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上記の実施形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、電子機器１０の制御部４０１は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。

メモリ１０２０は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、その他の適切な記憶媒体の少なくとも１つで構成されてもよい。メモリ１０２０は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、フレキシブルディスク、フロッピー（登録商標）ディスク、光磁気ディスク（例えば、コンパクトディスク（ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲＯＭ）など）、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス（例えば、カード、スティック（ｓｔｉｃｋ）、キードライブ（ｋｅｙｄｒｉｖｅｒ））、磁気ストライプ、データベース、サーバ、その他の適切な記憶媒体の少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）ランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、電子機器１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１０１０は、これらのハードウェアの少なくとも１つで実装されてもよい。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）など）及び／又は無線技術（赤外線、マイクロ波など）を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１及び第２の要素の参照は、２つの要素のみが採用され得ること又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

本明細書又は特許請求の範囲で「含む（ｉｎｃｌｕｄｉｎｇ）」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、及びそれらの変形が使用されている場合、これらの用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（ｏｒ）」は、排他的論理和ではないことが意図される。

当業者に理解されるように、本出願の各方面は、いくつかの特許可能な種類または状況によって説明又は解釈することができ、新規および有用なプロセス、機械、製品または物質の組み合わせを含み、或いはそれらに対する任意の新規又は有用な改良を含む。それに応じて、本出願の各方面は、完全にハードウェアによって実行されてもよく、或いは、完全にソフトウェア（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）によって実行されてもよく、或いは、ハードウェアとソフトウェアの組み合わせによって実行されてもよい。上記のハードウェアまたはソフトウェアは、「データブロック」、「モジュール」、「エンジン」、「ユニット」、「コンポーネント」、または「システム」と呼ぶことができる。さらに、本出願の各方面は、１つまたは複数のコンピュータ可読媒体内にあるコンピュータ製品であってもよく、当該製品は、コンピュータ可読プログラムコードを含む。

本出願は、本出願の実施形態を説明するために特定の用語を使用する。「一実施形態」、「一つの実施形態」、および／または「いくつかの実施形態」とは、本願の少なくとも１つの実施形態に関連する特定の特徴、構造、または特性を意味する。したがって、本明細書において異なる位置で２回以上言及される「一実施形態」または「一つの実施形態」または「代替的な実施形態」は、必ずしも同じ実施形態を意味するものではないことを理解すべきである。さらに、本出願の１つまたは複数の実施形態に係る特定の特徴、構造、または特性を適切に組み合わせることができる。

他に定義されない限り、本明細書で用いられる全ての用語（技術用語及び科学用語を含む）は、本開示が属する領域の当業者によって理解されるものと同じ意味を有する。また、一般的な辞書に定義されているような用語は、本明細書で明確に定義されていない限り、関連技術の文脈におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、理想化されまたは極端に形式化された意味で解釈されるべきではない。

以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。

Claims

一つ又は複数の入力文句を受信することと、
前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、
を含む、テキスト処理方法。
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することは、
前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第１の構文木を構築することと、
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することと、
を含む、請求項１に記載の方法。
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記第１の構文木を圧縮することは、
前記一つ又は複数のキーポイントに基づいて、前記第１の構文木における全てのキーポイントをカバーする最も短い経路を決定することと、
前記圧縮結果として、前記最も短い経路に対応する単語を組み合わせることと、
を含む、請求項２に記載の方法。
前記第１の構文木は、各々の入力文句における各々の単語の間の依存関係と出現順序に基づいて構築される、請求項２または３に記載の方法。
複数の入力文句について、前記一つ又は複数のキーポイントを識別する前に、異なる入力文句の間に所定回数繰り返す単語を計算し、
前記入力文句における前記の所定回数繰り返す単語を一つのみ保留し、かつその他の入力文句における前記の所定回数繰り返す単語を削除する、請求項１に記載の方法。
前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、
所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、請求項１～５のいずれか一項に記載の方法。
所定の規則に基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することは、
キーポイント識別モデルに基づいて、前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別すること、を含む、請求項６に記載の方法。
前記一つ又は複数の入力文句の各々に対して、前記入力文句の単語に対応するノードを有する第２の構文木を構築すること、
前記第２の構文木に基づいて、前記一つ又は複数の入力文句における各々の単語の深層情報を取得すること、
前記各々の単語の深層情報に基づいて、前記キーポイント識別モデルをトレーニングすること、により、前記キーポイント識別モデルをトレーニングする、請求項７に記載の方法。
一つ又は複数の入力文句を受信する受信部と、
前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別する識別部と、
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮する圧縮部と、
を含む、テキスト処理装置。
プロセッサと、
コンピュータ可読な命令を記憶するメモリと、
を含む、テキスト処理デバイスであって、
一つ又は複数の入力文句を受信することと、
前記一つ又は複数の入力文句から一つ又は複数のキーポイントを識別することと、
前記一つ又は複数のキーポイントに基づいて、圧縮結果を取得するように前記一つ又は複数の入力文句を圧縮することと、
を含むテキスト処理方法を、前記コンピュータ可読な命令が前記プロセッサにより実行される場合に実行する
テキスト処理デバイス。