JP2021096813A

JP2021096813A - データ処理方法及び装置

Info

Publication number: JP2021096813A
Application number: JP2020097658A
Authority: JP
Inventors: ツァオ・ユーホイ; Yuhui Cao; フェン・シークン; Shikun Feng; チェン・シュイー; Xuyi Chen; ホー・ジンヂョウ; Jingzhou He
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2020-06-04
Publication date: 2021-06-24
Also published as: US20210192288A1; CN111104482A

Abstract

【課題】高精度で、動作速度も速いミニモデルをトレーニングすることが可能なデータ処理方法及び装置を提供する。【解決手段】データ処理方法は、サンプルセットを取得し、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得し、取得した予測結果をそれぞれ複数のターゲットサンプルの中の各ターゲットサンプルのラベルとして確定し、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、訓練済み第２自然言語処理モデルを取得する。【選択図】図２

Description

本出願の実施例はコンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特にデータ処理方法及び装置に関する。

言語処理技術の発展に伴い、自然言語処理（ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ、ＮＬＰ）モデルが徐々に広く使用されるようになっている。様々な自然言語処理モデルも登場し、それらの中に、高処理精度を有し、規模も大きなモデルがある。

しかし、演算能力の制限で、処理精度の高い自然言語処理モデルが全ての計算プラットフォームの最適な選択ではない。一般的には、処理精度の高いモデルは予測速度が遅い。

本出願の実施例によりデータ処理方法及び装置が提出された。
第１態様において、本出願の実施例は、データ処理方法であって、ラベル無しの語句であるサンプルからなるサンプルセットを取得することと、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得することと、取得した予測結果をそれぞれ複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定することと、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得することであって、第１自然言語処理モデルのパラメータが第２自然言語処理モデルのパラメータよりも多い、ことと、を備えるデータ処理方法を提供する。

いくつかの実施例において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも２つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。

いくつかの実施例において、方法は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。

いくつかの実施例において、方法は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、更新済みサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。

いくつかの実施例において、方法は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。

第２態様において、本出願の実施例は、データ処理装置であって、ラベル無しの語句であるサンプルからなるサンプルセットを取得するように構成される取得手段と、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得するように構成される入力手段と、取得した予測結果をそれぞれ複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定するように構成される確定手段と、複数のターゲットサンプルと各ターゲットサンプルのラベルに基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得するように構成されるトレーニング手段であって、第１自然言語処理モデルのパラメータが第２自然言語処理モデルのパラメータよりも多いトレーニング手段と、を備えるデータ処理装置を提供する。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、更新済みサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。

第３態様において、本出願の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行される場合、１つまたは複数のプロセッサにデータ処理方法のいずれかの実施例に記載の方法を実現させる電子機器を提供する。

第４態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行される時、データ処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体を提供する。

本出願の実施例により提供されたデータ処理方法は、まず、サンプルセットを取得し、ここで、サンプルセットにおけるサンプルはラベル無しの語句である。次に、サンプルセットにおけるターゲットサンプルを事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得する。次に、予測結果をターゲットサンプルのラベルとして確定する。最后に、ターゲットサンプルとターゲットサンプルのラベルに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得し、ここで、第１自然言語処理モデルのパラメータが第２自然言語処理モデルのパラメータよりも多い。本出願の上記実施例により提供された解決策は第１自然言語処理モデルの予測結果をサンプルのラベルとして利用することができ、大量の、ラベルが存在するサンプルを取得してミニモデルをトレーニングすることができ、それによって、高精度を有し、動作速度も速いミニモデルがトレーニングにより得られることができる。

以下の図面を参照してなされる非限定的な実施例に対する詳細な説明により、本出願の他の特徴、目的及び利点がより明らかになる。

本出願のいくつかの実施例を適用可能な例示的なシステムアーキテクチャである。本出願に係るデータ処理方法の一実施例のフローチャートである。本出願に係るデータ処理方法の一応用シナリオの概略図である。本出願に係るデータ処理装置の一実施例の構成概略図である。本出願のいくつかの実施例を実施するための電子機器に適するコンピュータシステムの構成概略図である。

以下は、図面及び実施例を参照して本出願をさらに詳細に説明する。ここで開示された実施例は、本出願を解釈するためのものであって制限的なものではないことを理解されたい。なお、説明の便宜上、図面は開示の関連する部分のみを示している。

なお、矛盾が生じない状況で本出願の実施例及び実施例の特徴は、互いに組み合わせることができる。以下は図面を参照しながら実施例を踏まえて本出願をさらに詳細に説明する。

図１は本出願のデータ処理方法またはデータ処理装置の実施例を適用可能なシステムアーキテクチャ１００の例を示す。

図１に示すように、システムアーキテクチャ１００は端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を備えることができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクの媒体を提供するためのものである。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を用いて、ネットワーク１０４を介してサーバ１０５と情報のやり取りを行うことにより、メッセージ等を送受信することができる。端末装置１０１、１０２、１０３には様々な通信クライアントアプリケーション、例えばデータ処理アプリケーション、ビデオアプリケーション、生放送アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３はハードウェアである場合、ディスプレイを備える各種の電子機器であってもよく、それは、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップコンピュータ及びデスクトップコンピュータ等に限定されるものではない。端末装置１０１、１０２、１０３がソフトウェアである場合、上記した電子機器にインストールされることができる。それは複数のソフトウェア又はソフトウェアモジュール（例えば分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として実装されることができるし、単一のソフトウェア又はソフトウェアモジュールとして実装されることもできる。ここでは特に限定しない。

サーバ１０５は各種のサービスを提供するサーバであってもよく、例えば端末装置１０１、１０２、１０３にサポートを提供するバックグラウンドサーバである。バックグラウンドサーバは、サンプルセット等のデータに対して解析等の処理を行い、処理結果（例えば、トレーニング済み第２自然言語処理モデル）を端末装置にフィードバックする。

なお、本出願の実施例により提供されたデータ処理方法は、サーバ１０５または端末装置１０１、１０２、１０３で実行することができ、従って、データ処理装置はサーバ１０５または端末装置１０１、１０２、１０３に設置されることができる。

図１の端末装置、ネットワーク及びサーバの数は例示のみであることを理解されたい。実施の需要に応じ、任意の数の端末装置、ネットワーク及びサーバを備えることができる。

続いて、本出願に係るデータ処理方法の一実施例の流れ２００を示す図２を参照する。該データの処理方法は以下のステップを含む。

ステップ２０１では、サンプルセットを取得し、ここで、サンプルセットにおけるサンプルはラベル無しの語句である。

本実施例において、データ処理方法の実行主体（例えば、図１に示すサーバまたは端末装置）はサンプルセットを取得することができる。サンプルセットはサンプルにより構成される。サンプルセットのサンプルにラベル（ｌａｂｅｌ）が存在しない場合、ラベル無しのサンプルである。ここでのサンプルは語句そのものであってもよく、語句を単語に分割した結果であってもよい。

ステップ２０２では、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得する。

本実施例において、上記の実行主体はサンプルセットにおける複数のターゲットサンプルのそれぞれに対し、該ターゲットサンプルを事前トレーニングされた第１自然言語処理モデルに入力し、該モデルから出力された、該ターゲットサンプルに対応する予測結果を取得する。ここでの複数のターゲットサンプルはサンプルセットの全てのサンプルであってもよく、サンプルセットの部分のサンプルであってもよい。

具体的には、上記実行主体または他の電子機器は、手動でラベル付けられたサンプルを利用して第１自然言語処理モデルを事前トレーニングすることにより、事前トレーニングされた第１自然言語処理モデルを取得する。

ステップ２０３では、取得した予測結果それぞれを複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定する。

本実施例において、上記実行主体は、事前トレーニングされた第１自然言語処理モデルによるターゲットサンプルの予測結果を該ターゲットサンプルのラベルとして確定することができる。具体的には、事前トレーニングされた第１自然言語処理モデルは教師モデル（ＴｅａｃｈｅｒＭｏｄｅｌ）として、知識の蒸留、すなわちターゲットサンプルに対する予測により、該ターゲットサンプルにラベル付けることを実現することができる。

ステップ２０４では、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得し、ここで、第１自然言語処理モデルのパラメータは第２自然言語処理モデルのパラメータよりも多い。

本実施例において、上記実行主体はターゲットサンプル及びそのラベルに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得することができる。第１自然言語処理モデルに比して、第２自然言語処理モデルはパラメータが少なく処理速度が速いモデルである。第２自然言語処理モデルを上記教師モデルの学生モデル（ＳｔｕｄｅｎｔＭｏｄｅｌ）とすることができ、それによって、教師モデルにより生成されたラベルを利用してトレーニングを行う。上記実行主体は、トレーニング済み第２自然言語処理モデルを利用して予測を行うことができ、該予測の予測速度はトレーニング対象である第２自然言語処理モデルの予測速度よりも速く、取得した予測結果がトレーニング対象である第２自然言語処理モデルによる予測結果よりも正確率が高い。

ここでの、トレーニング対象である第２自然言語処理モデルは、トレーニングされていない初期の第２自然言語処理モデルであってもよく、事前トレーニング（Ｐｒｅ−ｔｒａｉｎ）が実行された第２自然言語処理モデルであってもよい。

実際に、第１自然言語処理モデルは、例えば、知識統合による強化表現（ＥｎｈａｎｃｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＫｎｏｗｌｅｄｇｅＩｎｔｅｇｒａｔｉｏｎ、ＥＲＮＩＥ）モデル、またはＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）モデルなど、各種のモデルであってもよい。第２自然言語処理モデルは、各種のモデルであってもよく、例えば単語の袋（Ｂａｇｏｆｗｏｒｄｓ，ＢｏＷ）モデル、双方向長・短期記憶（Ｂｉ−ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、Ｂｉ−ＬＳＴＭ）モデル。

本出願の上記実施例により提供された方法は、第１自然言語処理モデルの予測結果をサンプルのラベルとして利用することができ、大量の、ラベルが存在するサンプルを取得してミニモデルをトレーニングすることができ、それによって、高精度を有し、動作速度も速い、ミニモデルがトレーニングにより得られることができる。

本実施例のいくつかの選択可能な実施形態において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも２つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。

これらの選択可能な実施形態において、ターゲットサンプルのラベルは、サンプルが少なくとも２つのタイプのうちの一つのタイプの予測結果に属する確率をサンプルセットにおけるサンプルのラベルとして採用することができ、すなわち、少なくとも二次元の確率分布（ｓｏｆｔ−ｌａｂｅｌ）をラベルとして採用することができる。

これらの実施形態のラベルは、サンプルがどのタイプの分類結果に属するのみについてラベル付けることに比して、正確率が高く、それによって、トレーニングにより得られたモデルの正確度及び適合度をいっそう向上することができる。

本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子を含むサンプルにおいて、ターゲット単語の数が、該サンプルの単語の数に対して目標比率または目標数量を占めることと、指定された識別子が含まれるサンプルを、サンプルセットにサンプルとして追加することと、を備えることができる。

これらの選択可能な実施形態において、上記実行主体は、サンプルの単語のうちのターゲット単語を指定された識別子に置き換えることができる。ここでの指定された識別子は置き換えられた単語を隠すことができ、それによって、自然言語処理モデルが、置き換えた後のサンプルを利用して、どのように他の単語を利用して隠された単語を取得できるかを学習し、他の単語は例えばコンテキストの単語であってもよい。例えば、指定された識別子は「ＵＮＫ」であってもよい。

ここでのターゲット単語はサンプルにおいてランダムに選択されたものであってもよく、所定の規則に基づいて選択されたものであってもよい。上記実行主体はいくつかまたは全てのサンプルのうちの各サンプルに対して、該サンプルにおける所定の比率の単語をターゲット単語とすることができる。

これらの実施形態において、該サンプルセットにおいて、オリジナルサンプル、例えば上記単語の置き換えのためのサンプルが存在できるが、置き換え済みの追加サンプルも存在できる。それによって、サンプルセットに対する拡張を実現する。また、目標比率と目標数量により、サンプルを拡張するとともに、追加サンプルの数を制御することを実現することができる。また、指定された識別子により、モデルの、隠れた単語に対する予測能力を強めることができる。

本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルのターゲット単語を、同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、更新済みサンプルをサンプルセットにサンプルとして追加することと、を備えてもよい。

これらの選択可能な実施形態において、上記実行主体は、サンプルにおけるターゲット単語を更新することにより、新しいサンプルを取得することができる。ここでのターゲット単語は、サンプルにおいてランダムに選択されたものであってもよいし、所定の規則により選択されたものであってもよい。上記実行主体は、ターゲット単語の品詞と同じである各単語から、１つの単語をランダムに選択するか、または、事前設定された規則に従って選択して、該ターゲット単語を置き換えることができる。

これらの実施形態において、同じ品詞の単語を採用してターゲット単語を置き換えることで、新しいサンプルを生成し、サンプルセットに対して差別化の高品質な拡張を行うことができる。

本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルに対して目標長さのセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、を備えてもよい。

これらの選択可能な実施形態において上記実行主体は、サンプルセットに存在するサンプルから、一部を抽出して新しいサンプルとすることができる。目標長さは複数の異なる数値であってもよい。具体的には、目標長さはランダムな数値であってもよく、事前設定された数値であってもよい。抽出位置はランダムに選択されてもよく、例えば、サンプルの先頭の３つの単語を選択するなど、所定の規則に従って選択されてもよい。一般的には、抽出位置は語句において単語を分割する分割位置であってもよく、また、単語を分割する分割位置以外の位置を抽出位置としてもよい。

これらの実施形態は、サンプルの有効拡張を実現するために、セグメントを抽出することによりサンプルの多様性を向上することができる。

サンプルセットにおいて、追加されたサンプルと追加前のオリジナルサンプルは所定の比率で混合されることができるので、いっそう優れたトレーニング效果を達成することができる。

続いて、本実施例に係るデータ処理方法の応用シナリオの概略図である図３を参照する。図３の応用シナリオにおいて、実行主体３０１は、サンプルセットを取得でき、ここで、サンプルセットにおけるサンプルはラベル無しの語句に対して行われた単語分割の結果である。実行主体３０１は、サンプルセットにおけるターゲットサンプル３０２を事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果３０３を取得し、実行主体３０１は、予測結果をターゲットサンプルのラベル３０４として確定する。実行主体３０１は、ターゲットサンプル３０２とターゲットサンプルのラベル３０４に基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデル３０５を取得し、ここで、第１自然言語処理モデルのパラメータは第２自然言語処理モデルのパラメータよりも多い。

さらに図４を参考し、上記各図に示す方法の実現として、本出願はデータ処理装置の一実施例を提供し、該装置の実施例は図２に示す方法の実施例に対応し、以下に記載された特徴以外、該装置の実施例はさらに、図２に示す方法の実施例と同じまたは相応の特徴や效果を備えてもよい。該装置は具体的に各種の電子機器に適用できる。

図４に示すように、本実施例のデータ処理装置４００は、取得手段４０１、入力手段４０２、確定手段４０３及びトレーニング手段４０４を備える。ここで、取得手段４０１はサンプルセットを取得するように構成され、ここで、サンプルセットにおけるサンプルがラベル無しの語句であり、入力手段４０２は、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得するように構成され、確定手段４０３は、取得した予測結果をそれぞれ複数のターゲットサンプルのそれぞれのラベルとして確定するように構成され、トレーニング手段４０４は、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得するように構成され、ここで、第１自然言語処理モデルのパラメータは第２自然言語処理モデルのパラメータよりも多い。

いくつかの実施例において、データ処理装置４００の取得手段４０１はサンプルセットを取得する。サンプルセットはサンプルにより構成される。サンプルセットのサンプルにラベルが存在しなく、すなわちラベル無しのサンプルである。ここでのサンプルは語句そのものであってもよく、語句に対して単語を分割した結果であってもよい。

いくつかの実施例において、入力手段４０２は、サンプルセットの複数のターゲットサンプルのそれぞれに対して、該ターゲットサンプルを事前トレーニングされた第１自然言語処理モデルに入力し、該モデルから出力された、該ターゲットサンプルに対応する予測結果を取得することができる。ここでの複数のターゲットサンプルはサンプルセットにおける全てのサンプルであってもよく、サンプルセットにおける一部のサンプルであってもよい。

いくつかの実施例において、確定手段４０３は、事前トレーニングされた第１自然言語処理モデルによるターゲットサンプルへの予測結果を、該ターゲットサンプルのラベルとして確定することができる。具体的には、事前トレーニングされた第１自然言語処理モデルは教師モデルとして、知識の蒸留、すなわちターゲットサンプルに対する予測により、該ターゲットサンプルに対してラベル付けることを達成することができる。

いくつかの実施例において、トレーニング手段４０４はターゲットサンプル及びそのラベルに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得することができる。第１自然言語処理モデルに比して、第２自然言語処理モデルはパラメータがより少なく、処理速度がより速いモデルである。

本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、を備える。

本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいてターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、更新済みサンプルをサンプルセットにサンプルとして追加することと、を備える。

本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルから、目標長さのセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。

図５に示すように、電子機器５００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２に格納されたプログラムや、記憶装置５０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３にロードされたプログラムに基づき、各種の適当な動作や処理を実行することができる処理装置（例えば、中央処理装置、グラフィックプロセッサ等）５０１を備えることができる。ＲＡＭ５０３には、電子機器５００の操作に必要な各種プログラムやデータが記憶される。処理装置５０１、ＲＯＭ５０２及びＲＡＭ５０３は、バス５０４を介して相互に接続されている。バス５０４には、入出力（Ｉ／Ｏ）インタフェース５０５も接続されている。

Ｉ／Ｏインタフェース５０５には、一般的には、入力装置５０６、出力装置５０７、記憶装置６０８、通信装置５０９が接続されることができ、入力装置５０６は例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含み、出力装置５０７は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、スピーカ、バイブレータなどを含み、記憶装置５０８は例えば、磁気テープ、ハードディスクなどを含む。通信装置５０９は、データを交換するために、電子機器５００が他の装置と無線又は有線通信を行うことを可能にすることができる。なお、図５は、各種の装置を備えた電子機器５００を示したが、図示した全ての装置を実施又は備えることが要求されていないことを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えることができる。図５に示す各ブロックは、１つの装置を表してもよく、必要に応じて複数の装置を代表してもよい。

特に、本出願の実施例に基づき、上述のフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本出願の実施例は、フローチャートに示された方法を実行するためのプログラムコードを含む、コンピュータ可読媒体上に担持されたコンピュータプログラム製品を含む。このような実施例では、コンピュータプログラムは、通信装置５０９を介してネットワークからダウンロードされインストールされたり、記憶装置５０８からインストールされたり、ＲОＭ５０２からインストールされたりすることができる。このコンピュータプログラムが処理装置５０１によって実行されると、本出願の実施形態の方法に限定された上記機能が実行される。なお、本出願の実施形態で説明したコンピュータ可読媒体は、コンピュータ可読信号媒体若しくはコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例は、１本又は複数本のリード線を有する電気的に接続された携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲОＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲОＭ又はフラッシュメモリ）、光ファイバ、携帯型コンパクトディスク読取り専用メモリ（ＣＤ−ＲОＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限られない。本出願の実施形態では、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを含む又は記憶する任意の有形の媒体であり得る。本出願の実施形態では、コンピュータ可読信号媒体は、ベースバンド内において又はキャリアの一部として伝播された、コンピュータ可読プログラムコードを搬送しているデータ信号を含んでもよい。このような伝播されたデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含むが、これらに限られない様々な形態を採用することができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、電線、光ケーブル、ＲＦ（無線周波数）など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送することができる。

添付図面におけるフローチャート及びブロック図は、本出願の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の実施可能なアーキテクチャ、機能、及び動作を示している。ここで、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができる。該モジュール、プログラムセグメント、又はコードの一部は、指定されたロジック関数を実施するための１つ又は複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている２つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行する専用のハードウェアベースのシステムで実施することも、又は専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。

本出願の実施例において説明された手段は、ソフトウェア又はハードウェアによって実施され得る。説明された手段はプロセッサに内蔵されてもよい。例えば、「取得手段、入力手段、確定手段及びトレーニング手段を備えるプロセッサ」と記載されてもよい。これらの手段の名称は、手段そのものに対する限定ではなく、例えば、取得手段は、「サンプルセットを取得する手段」と記載されてもよい。

一方、本出願はさらにコンピュータ可読媒体を提供し、該コンピュータ可読媒体は上記実施例で説明した装置に含まれるものであってよいし、独立で存在して該装置に取り付けられていないものであってもよい。上記コンピュータ可読媒体には１つ又は複数のプログラムが記憶され、上記１つ又は複数のプログラムが該電子機器に実行される時に、該装置は、サンプルセットを取得することであって、サンプルセットにおけるサンプルはラベル無しの語句であることと、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得することと、取得した予測結果をそれぞれ複数のターゲットサンプルのそれぞれのラベルとして確定することと、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得することであって、第１自然言語処理モデルのパラメータは第２自然言語処理モデルのパラメータよりも多いことと、を行う。

上記の説明は、あくまでも本出願の好ましい実施形態及び応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴又はその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それだけに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換える置き換え手段であって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、置き換え手段と、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加する識別子付きサンプル追加手段と、をさらに備える。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新する更新手段であって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、更新手段と、更新済みサンプルをサンプルセットにサンプルとして追加する更新済みサンプル追加手段と、をさらに備える。

いくつかの実施例において、装置は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出する抽出手段と、抽出されたセグメントをサンプルセットにサンプルとして追加するセグメント追加手段と、をさらに備える。

第４態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行される時、データ処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
第５態様において、本出願の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、データ処理方法のいずれかの実施例に記載の方法を実現する、コンピュータプログラムを提供する。

Claims

ラベル無しの語句であるサンプルからなるサンプルセットを取得することと、
前記サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、前記事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得することと、
取得した予測結果それぞれを前記複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定することと、
前記複数のターゲットサンプルと前記各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得することであって、前記第１自然言語処理モデルのパラメータが前記第２自然言語処理モデルのパラメータよりも多い、ことと、を備えるデータ処理方法。
前記ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも２つのタイプのうちのいずれかのタイプに属する確率を示すためのものである請求項１に記載の方法。
前記方法は、
前記サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
前記指定された識別子が含まれるサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項１に記載の方法。
前記方法は、
前記サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
更新済みサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項１に記載の方法。
前記方法は、
前記サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、
抽出されたセグメントを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項１に記載の方法。
ラベル無しの語句であるサンプルからなるサンプルセットを取得するように構成される取得手段と、
前記サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第１自然言語処理モデルに入力し、前記事前トレーニングされた第１自然言語処理モデルから出力された予測結果を取得するように構成される入力手段と、
取得した予測結果それぞれを前記複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定するように構成される確定手段と、
前記複数のターゲットサンプルと前記各ターゲットサンプルのラベルに基づいて、トレーニング対象である第２自然言語処理モデルをトレーニングし、トレーニング済み第２自然言語処理モデルを取得するように構成されるトレーニング手段であって、前記第１自然言語処理モデルのパラメータが前記第２自然言語処理モデルのパラメータよりも多いトレーニング手段と、を備えるデータ処理装置。
前記ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも２つのタイプのうちのいずれかのタイプに属する確率を示すためのものである請求項６に記載の装置。
前記装置は、
前記サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
前記指定された識別子が含まれるサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項６に記載の装置。
前記装置は、
前記サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
更新済みサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項６に記載の装置。
前記装置は、
前記サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、
抽出されたセグメントを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項６に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行される場合、前記１つまたは複数のプロセッサに請求項１〜５のいずれか１項に記載の方法を実現させる電子機器。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
該プログラムがプロセッサによって実行される時、請求項１〜５のいずれか１項に記載の方法を実現するコンピュータ可読記憶媒体。