JP2023536773A

JP2023536773A - テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2023536773A
Application number: JP2022560062A
Authority: JP
Inventors: 恒王; 振雷田; 天宝于
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2022-03-22
Publication date: 2023-08-30
Also published as: EP4148594A4; CN113392218A; US20240221404A1; WO2023284327A1; EP4148594A1; US12283124B2

Abstract

本開示は、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、機器、記憶媒体およびコンピュータプログラムを提供する。人工知能技術分野に関し、より具体的に、自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関する。該テキスト品質評価モデルのトレーニング方法は、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、該タグがいずれか一つのテキストの種別を示し、種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることと、を含む。

Description

本願は、２０２１年０７月１２日に出願された中国特許出願第２０２１１０７８７４９２．３である優先権を主張し、そのコンテンツは併せてここで参考とする。

［技術分野］
本開示は、人工知能技術分野に関し、具体的に自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関し、より具体的には、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器及び記憶媒体に関する。

コンピュータ技術及びネットワーク技術の発展に伴い、テキストが情報の伝播キャリアとして十分に発展している。ユーザに効率的なテキスト検索及びテキスト推薦等のサービスを提供するために、一般的にテキストの品質を評価する必要があり、それによりユーザに高品質のテキストを提供する。

関連技術において、一般的に人工でサンプルをマークして分類モデルをトレーニングし、次に分類モデルを用いてテキスト品質を予測することにより、テキストライブラリから高品質のテキストを選別してユーザに推薦する。

本開示は、モデルのトレーニングコストを削減し、且つモデルの精度を向上するテキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、テキスト品質評価モデルのトレーニング方法を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、該種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることと、を含む。

本開示の他の態様によれば、テキスト品質の決定方法を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得することと、出力データに基づいて、処理べきテキストの種別を決定することと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング方法を採用してトレーニングして得られる。

本開示の他の態様によれば、テキスト品質評価モデルのトレーニング装置を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられるテキスト決定モジュールと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むタグ添加モジュールと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることに用いられる第一モデルトレーニングモジュールと、を含む。

本開示の他の態様によれば、テキスト品質の決定装置を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得する出力データ取得モジュールと、出力データに基づいて、処理べきテキストの種別を決定するテキスト品質決定モジュールと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング装置を採用してトレーニングして得られる。

本開示の他の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、少なくとも一つのプロセッサが本開示が提供するテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実行することができるように、命令は少なくとも一つのプロセッサにより実行される。

本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示が提供するテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実行させるために用いられる。

本開示の他の態様によれば、プロセッサにより実行される時に本開示が提供するテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。

図１は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法の応用シーンの概略図である。図２は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法のフローの概略図である。図３は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。図４は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。図５は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。図６は、本開示の実施例に係るテキスト品質の決定方法のフローの概略図である。図７は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。図８は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。図９は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実施するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、理解しやすいために、本開示の実施例の様々な詳細を含み、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

本開示は、テキスト決定段階、タグ添加段階及びモデルトレーニング段階を含むテキスト品質評価モデルのトレーニング方法を提供する。テキスト決定段階において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。タグ添加段階において、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて該いずれか一つのテキストにタグを添加し、該タグは、いずれか一つのテキストの種別を指示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。モデルトレーニング段階において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。

以下に図１を参照して本開示の提供する方法及び装置の応用シーンを説明する。

図１は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法の応用シーンの概略図である。

図１に示すように、該実施例のシーン１００は、第一サーバ１１０及び第一データベース１２０を含み、第一サーバ１１０は、例えばネットワークを介して第一データベース１２０にアクセスすることができる。ネットワークは、有線又は無線通信リンクを含むことができる。

該第一データベース１２０は、例えばテキストライブラリであってもよく、該テキストライブラリに品質評価が行われていない複数のテキストがメンテナンスされる。該複数のテキストは、例えばユーザが問題に対して提供した回答テキストであってもよく、又はユーザがアップロードした任意の種別のテキストであってもよく、本開示はこれを限定しない。

一実施例において、第一サーバ１１０は、リコール規則に基づいて第一データベース１２０から条件を満たすテキストをリコールし、リコールされたテキスト１３０を取得することができる。リコール条件は、例えば、テキストの閲覧量、サムズアップ量、サムズダウン量などの指標データに基づいて設定されることができる。これにより、第一データベース１２０から、ポジティブサンプルとネガティブサンプルをリコールする。そして、リコールされたテキスト１３０に対応するリコール条件に基づいて、リコールされたテキスト１３０にタグを添加し、タグを有するテキスト１４０を取得する。例えば、リコールされたネガティブサンプルに低品質種別を指示するタグを添加し、リコールされたポジティブサンプルに非低品質種別を指示するタグを添加する。

一実施例において、図１に示すように、該応用シーン１００は、第二サーバ１５０をさらに含むことができ、該第二サーバ１５０は、例えば第一サーバ１１０が生成したタグを有するテキストを受信し、かつ該テキストをトレーニングサンプルとして、テキスト品質評価モデル１６０をトレーニングすることができる。このように、トレーニングされたテキスト品質評価モデル１６０に基づいて品質評価を行っていないテキストに対して品質評価を行うことができる。該第二サーバ１５０は、例えばネットワークを介して第一データベース１２０にアクセスすることにより、第一データベース１２０から品質評価を行っていないテキストを取得する。該第二サーバ１５０は、品質評価が完了したテキストを第二データベース１７０に書き込んでもよい。

一実施例において、図１に示すように、該応用シーン１００は、端末装置１８０をさらに含むことができ、該端末装置１８０は、マンマシンインタラクション機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型の便利なコンピュータ及びデスクトップコンピュータ等を含むが、それらに限定されない。この端末装置１８０は、例えばネットワークを介して第二サーバ１５０と対話することができる。例えば、端末装置１８０は、ユーザが該端末装置１８０を介してアップロードしたテキスト１９０を第二サーバ１５０に送信し、第二サーバ１５０により、テキスト品質評価モデル１６０を用いて該アップロードされたテキスト１９０に対して品質評価を行うことができる。該第二サーバ１５０は、さらに品質評価を完了した後、該アップロードされたテキストおよび品質評価結果を第二データベース１７０に書き込むことができる。

一実施例において、該応用シーンは、質問応答理解技術シーンであってもよい。ここで、質問応答理解技術とは、問題テキストに対する語義理解により、適切な回答にマッチングするか又は回答が問題の要求を満たすか否かを判断することを意味している。インターネットの急速な発展に伴い、ネットワークには毎日大量の情報が生成される。該大量の情報を取得するために、ますます多くの検索エンジンが開発され使用される。各検索エンジンは、該語義理解技術により、それぞれ収録された情報ライブラリから、ユーザのニーズに関連する情報を検索してユーザにフィードバックする。図１の応用シーンにより、該テキスト品質評価モデル１６０を介して各問題に対する回答テキストに対して品質評価を行なうことができる。このように、各検索エンジンはユーザが提供した問題テキストに基づいて、高品質の回答をリコールしてユーザにフィードバックし、ユーザ体験を向上させることができる。

一実施例において、第一サーバ１１０および第二サーバ１５０は、例えば同一のサーバであってもよい。第一データベース１２０および第二データベース１７０は、例えば、同一のデータベースの二つの記憶区画領域であってもよい。例えば、第一サーバ１１０は、例えば得られたタグを有するテキストに基づいて、テキスト品質評価モデルをトレーニングすることができる。

説明すべきこととして、本開示の実施例が提供するテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法は一般的に第二サーバ１５０により実行されてもよく、又は一部が第一サーバ１１０により実行され、他部が第二サーバ１５０により実行されてもよい。相応的には、本開示の実施例が提供するテキスト品質評価モデルのトレーニング装置及び／又はテキスト品質の決定装置は、第二サーバ１５０に設置されてもよく、又は一部が第一サーバ１１０に設置され、他部が第二サーバ１５０に設置されてもよい。

理解すべきこととして、図１における第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置の数及びタイプは単に例示的である。実現需要に応じて、任意のデータ及びタイプの第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置を有することができる。

以下に図１を参照し、以下の図２～図５により本開示が提供するテキスト品質評価モデルのトレーニング方法を詳細に説明する。

図２に示すように、該実施例のテキスト品質評価モデルのトレーニング方法２００は操作Ｓ２１０～操作Ｓ２３０を含むことができる。

操作Ｓ２１０において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。

ここで、例えば一つのテキストに対して生成されたインタラクション行為を統計することにより、該テキストに関連する複数の指標データを取得することができる。テキストに対する指標データは、例えばテキストが配信者以外の他のユーザにより閲覧又は操作される状況を表すことができ、例えば、指標データは、テキストの閲覧量、サムズアップ量、サムズダウン量、テキストが採用される状況等を含むことができる。一実施例において、該テキストに対する指標データは例えばテキストの配信者の指標データを示すことができる。当該配信者の指標データは、例えば、配信者の関連アカウントのレベル、関連アカウントが会員アカウントであるか否か、配信者が配信したテキストの数、配信者が配信したテキストの品質等を含んでもよい。又は、該テキストに対する指標データは、例えば複数のテキストに対する表示位置、テキストの表示完全性、テキストが折り畳まれて表示されるか否か等のテキストの表示属性を含むことができる。本開示は、該テキストに対する指標データを限定せず、該テキストに対する指標データがある程度でテキストの品質を反映することができればよい。

本開示の実施例によれば、複数のテキストは、例えばテキストライブラリにメンテナンスされた全量テキストであってもよい。ネガティブサンプル条件及びポジティブサンプル条件は、テキストに対する指標データに基づいて設定された条件である。例えば、ネガティブサンプル条件は、サムズダウン量がサムズダウン量閾値以上であってもよく、ポジティブサンプルの条件は、サムズアップ量がサムズアップ量閾値以上であってもよい。リコールされたポジティブサンプル条件を満たす第二テキストの正確性を向上させるために、該ポジティブサンプル条件の限界のテキスト品質に対する要求は、ネガティブサンプル条件の限界のテキスト品質に対する要求より高いことができる。該ネガティブサンプル条件及びポジティブサンプル条件は、実際の需要に応じて設定することができ、本開示はこれを限定しない。

操作Ｓ２２０において、第一テキストと第二テキストのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて、該いずれか一つのテキストにタグを添加する。

本開示の実施例によれば、該タグは、例えばいずれか一つのテキストの種別を指示することができる。例えば、該いずれか一つのテキストがネガティブサンプル条件を満たす第一テキストであれば、該いずれか一つのテキストに低品質種別を指示するタグを添加する。該いずれか一つのテキストがポジティブサンプル条件を満たす第二テキストであれば、該いずれか一つのテキストに非低品質種別を指示するタグを添加する。例えば、低品質種別を指示するタグは、１で表示されてもよく、非低品質種別を示すタグは、０で示されてもよい。

操作Ｓ２３０において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。

本開示の実施例によれば、トレーニングセットにおけるいずれか一つのテキストをテキスト品質評価モデルの入力として、該テキスト品質評価モデルの出力データに基づいてテキストが低品質種別であるか否かという評価結果を取得することができる。該評価結果をいずれか一つのテキストのタグ指示の種別と比較し、かつ比較結果に基づいて勾配降下アルゴリズム又は逆方向伝播アルゴリズムを採用して、テキスト品質評価モデルをトレーニングすることができる。

ここで、テキスト品質評価モデルは、例えば分類モデルであってもよく、それによりテキスト品質の種別が低品質種別であるか否かを決定するために用いられる。この分類モデルは、例えば、ｆａｓｔＴｅｘｔモデル、ｔｅｘｔＣＮＮモデル、ＲＣＮＮモデル、Ｂｉ－ＬＳＴＭモデルなどを含むことができる。該分類モデルは、語義特徴抽出層及び完全接続層を含み、語義特徴抽出層は、語義特徴を抽出するために用いられ、完全接続層は、語義特徴を種別次元の空間にマッピングし、分類予測結果を出力するために用いられる。

以上により、本開示の実施例は、テキスト品質評価モデルをトレーニングする際に、指標データに基づいてテキストライブラリから条件を満たすテキストをリコールし、かつテキストが満たす条件に基づいてテキストにタグを添加するという方式を採用することにより、サンプルセットの自動生成を実現することができる。ある種別のサンプルデータが少ない場合に、条件を満たすテキストをリコールしてトレーニングセットを生成することにより、各種別のサンプルデータの割合をバランスさせることができ、したがって、テキスト品質評価モデルがトレーニング過程においてテキスト特徴と各品質評価結果との関連関係を十分に学習することができ、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。さらに、該実施例のトレーニング方法に基づいて、モデルに対するコールドスタートトレーニングを実現することができる。

図３は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。

本開示の実施例によれば、テキスト品質評価モデルは、例えば語義表示ネットワークを含むことができ、それにより抽出されたテキスト特徴は、テキストの語義をより正確に表示する。一実施例において、該語義表示ネットワークは、例えば事前トレーニングモデルを採用することができる。該事前トレーニングモデルは、埋め込み型言語モデル（ＥｍｂｅｄｄｉｎｇｓｆｏｒｍＬａｎｇｕａｇｅＭｏｄｅｌｓ，ＥＬＭｏ）又はｔｒａｎｓｆｏｒｍｅｒに基づく双方向符号化表現モデル（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ，ＢＥＲＴ）などを含むことができる。該実施例において、該語義表示ネットワークを事前にトレーニングし、事前にトレーニングされた語義表示ネットワークを用いてテキスト品質評価モデルを構築することができる。

図３に示すように、該実施例のテキスト品質評価モデルをトレーニングする方法３００は、まずテキストライブラリ３１０における複数のテキストに基づいて、該語義表示ネットワーク３２０をトレーニングし、事前にトレーニングされた語義表示ネットワーク３３０を取得することができる。その後に、事前にトレーニングされた語義表示ネットワーク３３０に基づいて、この事前にトレーニングされた語義表示ネットワーク３３０の出力方向に完全接続層３４０等のネットワーク構造をスティッチングすることにより、テキスト品質評価モデル３５０を取得する。

本開示の実施例によれば、語義表示ネットワーク３２０がＢＥＲＴモデルであることを例とし、該語義表示ネットワーク３２０をトレーニングする場合、マスク言語モデル（ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌ，ＭＬＭ）タスク及び次のセンテンス予測（ＮｅｘｔＳｅｎｔｅｎｃｅＰｒｅｄｉｃｔｉｏｎ，ＮＳＰ）タスクという二つの事前トレーニングタスクを構築することができる。ここで、ＭＬＭタスクを完了する時に、所定の確率（例えば１５％）でｍａｓｋｔｏｋｅｎ（［ＭＡＳＫ］）で各トレーニングシーケンスにおけるｔｏｋｅｎをランダムに置き換え、次に［ＭＡＳＫ］位置の単語を予測することができる。該予測された単語と［ＭＡＳＫ］位置での実際の単語との間の差異に基づいて、該ＢＥＲＴモデルをトレーニングする。ＮＳＰタスクを完了する時、例えばテキストライブラリから二つのセンテンステキスト（センテンステキストＡとセンテンステキストＢ）をランダムに選び出し、一つのトレーニングサンプルを構成することができる。５０％の場合、センテンステキストＢはセンテンステキストＡの次のセンテンスであり（ＩｓＮｅｘｔと表記する）であり、５０％の残った場合、センテンスＢは、テキストライブラリにおけるランダムセンテンステキスト（ＮｏｔＮｅｘｔと表記する）である。その後に、該トレーニングサンプルをＢＥＲＴモデルに入力し、二分類の予測を行い、予測結果とタグとの間の差異に基づいてＢＥＲＴモデルをトレーニングする。

図３に示すように、テキスト品質評価モデル３５０を取得した後、前述の方法を採用してテキストライブラリ３１０から第一テキスト３６０及び第二テキスト３７０をリコールすることができ、該第一テキスト３６０及び第二テキスト３７０にそれぞれタグを添加した後に、トレーニングセット３８０を取得する。そして、このトレーニングセット３８０に基づいて、テキスト品質評価モデル３５０をトレーニングする。理解できるように、該テキストライブラリ３１０から第一テキスト３６０及び第二テキスト３７０をリコールする操作は、例えば前述の語義表示ネットワークをトレーニングする操作と同時に実行することができ、又は任意の順序に基づいてこの二つの部分操作を実行することができ、本開示はこれを限定しない。

該実施例は、全量テキストに基づいて語義表示ネットワークに事前トレーニングを行い、かつ事前にトレーニングして得られた語義表示ネットワークに基づいて、テキスト品質評価モデルを構築し、得られたテキスト品質評価モデルの語義表現能力を向上させることができる。これは、語義表示ネットワークが語義特徴を抽出し、少ないサンプルの影響を受けないためである。したがって、ある程度でトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させることができる。

本開示の実施例によれば、前述のリコール方法で得られたトレーニングセットを用いてテキスト品質評価モデルをトレーニングする方法は、実質的に弱教師あり学習方法である。トレーニングセットを使用してテキスト品質評価モデルへのトレーニングを完了した後、該実施例は、さらに人工でマークされたタグを有するトレーニングテキストを採用することにより、テキスト品質評価モデルに強教師あり学習を行なわせることができる。具体的にはテキストの実際の種別を指示する人工でマークされたタグを有する目標テキストをトレーニングサンプルとして、トレーニングセットを採用してトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うことができる。この二次トレーニング過程は、前述のトレーニングセットに基づいてトレーニングする過程と類似している。該方式により、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性をさらに向上させることができる。ここで、テキストの実際の種別は、低品質種別及び非低品質種別を含むことができる。

図４は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。

本開示の実施例によれば、図４に示すように、該実施例４００は、テキストライブラリ４１０から第一テキスト及び第二テキストをリコールする時、例えば該テキストライブラリ４１０におけるいずれか一つのテキスト４２０に対して、該いずれか一つのテキスト４２０の指標データ４３０に基づいて、該いずれか一つのテキストの満足度を決定することができる。次に、該いずれか一つのテキストの満足度に基づいて、該いずれか一つのテキストが第一テキストであるか、第二テキストであるか、あるいは第一テキスト及び第二テキスト以外の他のテキストであるかを決定する。該いずれか一つのテキスト４２０が第一テキスト又は第二テキストであれば、テキストライブラリ４１０から該いずれか一つのテキストを読み取る。

本開示の実施例によれば、該テキストの満足度が第一閾値より小さいか否かを決定することができ、第一閾値より小さければ、該いずれか一つのテキストが第一テキストであると決定し、すなわち該テキストはネガティブサンプル条件を満たすテキストである。該テキストの満足度が該第一閾値より大きく、かつ第二閾値以上であれば、該いずれか一つのテキストが第二テキストであると決定することができ、すなわち該テキストはポジティブサンプル条件を満たすテキストである。該テキストの満足度が第一閾値と第二閾値との間にある場合、該いずれか一つのテキストが他のテキストであると決定することができる。ここで、第二閾値は第一閾値より大きい。該第一閾値、及び該第一閾値より大きい第二閾値を設定することにより、テキストがリコールを必要とするテキストであるか否かを決定し、リコールして得られた第一テキスト及び第二テキストの正確性を向上させることができる。

本開示の実施例によれば、テキストに対する指標データは、例えば前述のサムズアップ数、閲覧数等を含むことができ、該テキストの満足度は、例えば該サムズアップ数に正相関し、該閲覧数に正相関することができる。又は、該指標データは、サムズダウン数を含むことができ、テキストの満足度は、該サムズダウン数に負相関することができる。又は、テキストに対する指標データは、例えばテキスト配信者の指標データを含むことができ、該テキスト配信者の指標データが配信者の関連アカウントのレベルを含むと、テキストの満足度は、例えばレベルに正相関することができる。又は、配信者の指標データは、配信者が配信したテキストの品質を含むことができ、テキストの満足度は、例えば該品質に正相関することができる。

一実施例において、テキストに対する指標データは、例えば複数のデータであってもよく、テキストの満足度を決定する時、該複数のデータを総合的に考慮することができる。該テキストの満足度を容易に決定するために、図４に示すように、該実施例は、所定の満足度関数４４０を提供することができる。該実施例は、いずれか一つのテキスト４２０に対する指標データ４３０に基づいて、該所定の満足度関数４４０の関数値４５０を決定し、該関数値４５０を満足度とすることができる。理解できるように、該所定の満足度関数４４０は、前述の満足度と各指標データとの間の関係（すなわち正相関関係又は負相関関係）を体現することができ、本開示は、該所定の満足度関数の表現式を限定しない。

例えば、該所定の満足度関数は、以下のように表示することができる：

ａ、ｂ、ｃ、ｄは、非負の定数であり、これらの定数の値は、実際の需要に応じて設定することができ、本開示はこれを限定しない。理解されるように、上記所定の満足度関数は例として本開示を理解することに役立ち、本開示はこれを限定しない。

本開示の実施例によれば、統計を容易にするために、関数値４５０を所定値の範囲内にマッピングし、マッピングして得られた値をいずれか一つのテキスト４２０の満足度４６０とすることができる。テキストライブラリ４１０における各テキストに対して、いずれも前述の方法を採用して各テキストの満足度を得ることができる。それにより該満足度に基づいて該各テキストが満たす条件（即ちネガティブサンプル条件又はポジティブサンプル条件）を決定し、第一テキスト及び第二テキストに対するリコールを実現する。

本開示の実施例によれば、テキストに対する指標データがテキスト配信者の指標データを含む場合、該実施例は、該テキスト配信者の指標データのみに基づいて複数のテキストからネガティブサンプル条件を満たす第一テキストをリコールすることができる。これは、テキスト配信者の指標データが不良である場合、一定の程度で該テキスト配信者の知識レベルが低いことを説明することができ、該テキスト配信者が配信するテキストの参考価値が一般的に低いためである。該方式により、ネガティブサンプルテキストのサンプルが少ないという問題を解決し、少ないサンプルに対するリコールを実現することができる。

例えば、該テキスト配信者の指標データがテキスト配信者のネガティブ影響を示すためのデータである場合、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、該選択されたテキストを第一テキストとすることができる。ここで、テキスト配信者のネガティブ影響を示すためのデータは、例えば配信されたテキストが収集テキストに属する比率又は配信テキストの重複率などの少なくとも一つを含むことができる。ここで、収集テキストとは、他人が配信したテキストから直接にコピーされたテキストであることを指す。配信テキストの重複率とは、配信されたテキストのうち、同一のテキストの割合である。理解されるように、本開示を理解するように、該テキスト配信者の指標データが例示のみであり、本開示はこれを限定しない。

図５は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。

本開示の実施例によれば、テキスト表示時に、一般的に質問者により折り畳んで表示されたテキストが質問者に対して参照価値がないテキストであることを考慮し、該実施例は、複数のテキストからネガティブサンプル条件を満たすテキストをリコールする時、テキストの表示属性に基づいて折り畳んて表示されたテキストをリコールしてもよい。相応的には、前述のテキストに対する指標データは、テキストの表示属性を含むべきである。

例えば、図５に示すように、該実施例５００は、テキストライブラリ５１０におけるいずれか一つのテキスト５２０に対して、該いずれか一つのテキスト５２０の表示属性５３０が折り畳み表示であるか又は非折り畳み表示であることを決定することができる。該いずれか一つのテキスト５２０の表示属性が折り畳み表示であれば、該いずれか一つのテキスト５２０が第一テキストであると決定する。

一実施例において、図５に示すように、表示属性が折り畳み表示であるテキストを候補テキスト５４０とすることができる。該候補テキストに対する指標データにおける他の指標データ５５０に基づいて、該候補テキストから参照価値の高いテキストを取り除き、残りのテキストを第一テキスト５６０とする。該方式により、質問者の主観的な影響によるネガティブサンプルテキストに対する誤解の状況を回避することができる。ここで、他の指標データは、前述のテキストに対する行為データ及び／又はテキスト配信者の指標データであってもよい。この実施例では、候補テキストから、サムズアップ数がサムズアップ数閾値よりも高いテキストを取り除くようにしてもよい。又は、候補テキストにおけるあるテキストの配信者が配信したテキストにおいて、折り畳まれたテキストの割合を統計することができる。該折り畳まれたテキストの割合が折り畳み割合閾値より小さい場合、候補テキストから該あるテキストを取り除く。理解できるように、前述の取り除きルールは、単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。

本開示の実施例は、表示属性に基づいて折り畳んで表示されたテキストをリコールすることにより、第一テキストを取得し、リコールされたネガティブサンプルテキストの割合をさらに向上させ、ネガティブサンプルテキストのサンプルが少ないという問題を解決することができる。それによりトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。

本開示の実施例によれば、前述の複数種のリコール方法のうちの二種又は複数種の方法を採用してテキストライブラリから第一テキスト及び第二テキストをリコールすることができ、これによりリコールテキストの数を向上させる。少なくとも二種の方法を採用して第一テキスト及び第二テキストをリコールする場合、例えばリコールされた第一テキストに対して重複排除操作を行い、かつリコールされた第二テキストに重複排除操作を行うことができる。

前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質の決定方法をさらに提供する。以下、図６を参照しながら、この方法を詳細に説明する。

図６は、本開示の実施例に係るテキスト品質の決定方法のフローチャートである。

図６に示すように、該実施例のテキスト品質の決定方法６００は、操作Ｓ６１０～操作Ｓ６２０を含むことができる。

操作Ｓ６１０において、処理べきテキストをテキスト品質評価モデルの入力として、テキスト品質評価モデルの出力データを取得する。

操作Ｓ６２０において、出力データに基づいて、処理べきテキストの種別を決定する。

ここで、テキスト品質評価モデルは、前述のテキスト品質評価モデルのトレーニング方法によりトレーニングして得られたものであってもよい。テキスト品質評価モデルの出力データは、直接に分類結果であってもよく、該分類結果が低品質種別であれば、処理べきテキストが低品質テキストであると決定し、そうでなければ、処理べきテキストが非低品質テキストであると決定する。又は、該テキスト品質評価モデルの出力データは、処理べきテキストが低品質テキストである確率であってもよい。該確率が確率閾値以上であれば、該処理べきテキストの種別が低品質種別であると決定し、そうでなければ、該処理べきテキストの種別が非低品質種別であると決定する。

本開示の実施例によれば、処理べきテキストをテキスト品質評価モデルに入力する前に、例えばまず該処理べきテキストを符号化し、符号化されたセンテンスベクトルを該テキスト品質評価モデルの入力とすることができる。

前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質評価モデルのトレーニング装置をさらに提供する。以下、図７を参照しながら、該装置を詳細に説明する。

図７は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。

図７に示すように、該実施例のテキスト品質評価モデルのトレーニング装置７００は、テキスト決定モジュール７１０、タグ添加モジュール７２０及び第一モデルトレーニングモジュール７３０を含むことができる。

テキスト決定モジュール７１０は、テキストに対する指標データに基づいて、複数のテキストにおいてネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられる。一実施例において、テキスト決定モジュール７１０は、前述の操作Ｓ２１０を実行するために用いられ、ここで説明を省略する。

タグ添加モジュール７２０は、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加することに用いられ、該タグは、いずれか一つのテキストの種別を示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。一実施例において、タグ添加モジュール７２０は、前述の操作Ｓ２２０を実行するために用いられ、ここで説明を省略する。

第一モデルトレーニングモジュール７３０は、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングするために用いられる。一実施例において、第一モデルトレーニングモジュール７３０は、前述の操作Ｓ２３０を実行するために用いられ、ここで説明を省略する。

本開示の実施例によれば、上記テキスト品質評価モデルは、語義表示ネットワークを含み、上記テキスト品質評価モデルのトレーニング装置７００は、ネットワークトレーニングモジュール及びモデル取得モジュールをさらに含むことができる。ネットワークトレーニングモジュールは、第一モデルトレーニングモジュールがテキスト品質評価モデルをトレーニングする前に、複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得するために用いられる。モデル取得モジュールは、事前にトレーニングされた語義表示ネットワークに基づいて、テキスト品質評価モデルを取得するために用いられる。

本開示の実施例によれば、上記テキスト決定モジュール７１０は、例えば満足度決定サブモジュール、第一テキスト取得サブモジュール及び第二テキスト取得サブモジュールを含むことができる。満足度決定サブモジュールは、テキストに対する指標データに基づいて、複数のテキストにおける各テキストの満足度を決定するために用いられる。第一テキスト取得サブモジュールは、複数のテキストから、満足度が第一閾値より小さいテキストを選択し、第一テキストを取得するために用いられる。第二テキスト取得サブモジュールは、複数のテキストから、満足度が第二閾値以上であるテキストを選択し、第二テキストを取得するために用いられる。ここで、第一閾値は第二閾値より小さい。

本開示の実施例によれば、各テキストに対する指標データは、少なくとも二つの指標データを含む。上記満足度決定サブモジュールは、関数値決定ユニットと満足度取得ユニットとを含んでもよい。関数値決定ユニットは、各テキストに対する指標データに基づいて、所定の満足度関数値を決定するために用いられる。満足度取得ユニットは、所定の満足度関数値を所定値の範囲内にマッピングし、各テキストの満足度を取得するために用いられる。

本開示の実施例によれば、テキストに対する指標データは、テキスト配信者の指標データを含む。上記テキスト決定モジュール７１０は、第三テキスト取得サブモジュールを含み、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、第一テキストを取得するために用いられる。ここで、テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率のうちの少なくとも一つを含む。

本開示の実施例によれば、テキストに対する指標データは、テキストの表示属性を含む。上記テキスト決定モジュール７１０は、第四テキスト取得サブモジュールを含み、複数のテキストから表示属性が折り畳み表示であるテキストを選択し、第一テキストを取得するために用いられる。

本開示の実施例によれば、テキストに対する指標データは、テキストに対する行為データ及びテキスト配信者の指標データをさらに含む。第四テキスト取得サブモジュールは、候補テキスト取得ユニットと、テキスト取り除きユニットとを含んでもよい。候補テキスト取得ユニットは、複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとする。テキスト取り除きユニットは、テキストに対する行為データ及びテキスト配信者の指標データのうちの少なくとも一つに基づいて、候補テキストから目標テキストを取り除き、第一テキストを取得するために用いられる。

本開示の実施例によれば、上記テキスト品質評価モデルのトレーニング装置７００は、第二モデルトレーニングモジュールをさらに含み、目標テキストをトレーニングサンプルとして、第一モデルトレーニングモジュールがトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うために用いられる。ここで、目標テキストは、テキストの実際の種別を指示する人工マークタグを有する。

前述のテキスト品質の決定方法に基づいて、本開示は、テキスト品質の決定装置をさらに提供する。以下、図８を参照しながら、この装置を詳細に説明する。

図８は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。

図８に示すように、該実施例のテキスト品質の決定装置８００は、出力データ取得モジュール８１０及びテキスト品質決定モジュール８２０を含むことができる。

出力データ取得モジュール８１０は、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得するために用いられる。一実施例において、出力データ取得モジュール８１０は、前述の操作Ｓ６１０を実行するために用いられ、ここで説明を省略する。

テキスト品質決定モジュール８２０は、出力データに基づいて、処理べきテキストの種別を決定するために用いられる。一実施例において、テキスト品質決定モジュール８２０は、前述の操作Ｓ６２０を実行するために用いられ、ここで説明を省略する。

なお、本開示の技術案において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。

本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。

図９は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定法王を実施することが可能な電子機器９００の一例を示す概略ブロック図である。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器はさらに様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図９に示すように、機器９００は計算ユニット９０１を含み、それはリードオンリーメモリ（ＲＯＭ）９０２に記憶されたコンピュータプログラム又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ９０３には、さらに機器９００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４を介して相互に接続されている。バス９０４には、入出力インタフェース９０５も接続されている。

機器９００における複数の部品は、Ｉ／Ｏインタフェース９０５に接続され、例えばキーボード、マウス等の入力ユニット９０６と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット９０７と、例えば磁気ディスク、光ディスク等の記憶ユニット９０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット９０９とを含む。通信ユニット９０９は、機器９００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信網を介して他の装置と情報／データをやり取りすることを可能にする。

計算ユニット９０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算ユニット９０１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット９０１は、例えばテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法ような上記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法は、例えば記憶ユニット９０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して電子機器９００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ９０３にロードされて計算ユニット９０１により実行される場合、上記記載されたテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法の１つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット９０１は、他の任意の適切な方式（例えば、ファームウェアを介する）によりテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実行するように構成されてもよい。

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び／又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（声入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。その中、サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびＶＰＳサービス(「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または略して「ＶＰＳ」) の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

［技術分野］
本開示は、人工知能技術分野に関し、具体的に自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関し、より具体的には、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。

本開示は、モデルのトレーニングコストを削減し、且つモデルの精度を向上するテキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。

本開示の他の態様によれば、プロセッサにより実行される時に本開示が提供するテキスト品質評価モデルのトレーニング方法及び／又はテキスト品質の決定方法を実現するコンピュータプログラムを提供する。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。

Claims

テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、
前記第一テキスト及び前記第二テキストのうちのいずれか一つのテキストに対して、前記いずれか一つのテキストが満たす条件に基づいて前記いずれか一つのテキストにタグを添加し、前記タグは前記いずれか一つのテキストの種別を示し、前記種別はネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、
前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、前記テキスト品質評価モデルをトレーニングすることと、を含む
テキスト品質評価モデルのトレーニング方法。
前記テキスト品質評価モデルは、語義表示ネットワークを含み、
前記方法は、さらに前記テキスト品質評価モデルをトレーニングする前に、
前記複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得することと、
前記事前にトレーニングされた語義表示ネットワークに基づいて、前記テキスト品質評価モデルを取得することと、を含む
請求項１に記載の方法。
複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することは、
前記テキストに対する指標データに基づいて、前記複数のテキストにおける各テキストの満足度を決定することと、
前記複数のテキストから満足度が第一閾値より小さいテキストを選択し、前記第一テキストを取得することと、
前記複数のテキストから満足度が第二閾値以上であるテキストを選択し、前記第二テキストを取得することと、を含み、
ここで、前記第一閾値は前記第二閾値より小さい
請求項１に記載の方法。
前記各テキストに対する指標データは少なくとも二つの指標データを含み、
前記複数のテキストにおける各テキストの満足度を決定することは、
前記各テキストに対する指標データに基づいて、所定の満足度関数値を決定することと、
前記所定の満足度関数値を所定値の範囲内にマッピングし、前記各テキストの満足度を取得することと、を含む
請求項３に記載の方法。
テキストに対する指標データはテキスト配信者の指標データを含み、
複数のテキストにおけるネガティブサンプル条件を満たす第一テキストを決定することは、
前記複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、前記第一テキストを取得することを含み、
ここで、前記テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率の少なくとも一つを含む
請求項１－４のいずれか一項に記載の方法。
前記テキストに対する指標データはテキストの表示属性を含み、
複数のテキストにおける所定のネガティブサンプル条件を満たす第一テキストを決定することは、
前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得することを含む
請求項１－４のいずれか一項に記載の方法。
前記テキストに対する指標データはさらにテキストに対する行為データ及びテキスト配信者の指標データを含み、
前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得することは、
前記複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとすることと、
前記テキストに対する行為データ及び前記テキスト配信者の指標データのうちの少なくとも一つに基づいて、前記候補テキストから目標テキストを取り除き、前記第一テキストを取得することと、を含む
請求項６に記載の方法。
さらに、前記テキスト品質評価モデルをトレーニングした後に、
目標テキストをトレーニングサンプルとして、トレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うことを含み、
ここで、前記目標テキストは、テキストの実際の種別を示す人工マークタグを有する
請求項１に記載の方法。
テキスト品質を決定する方法であって、
処理べきテキストをテキスト品質評価モデルの入力とし、前記テキスト品質評価モデルの出力データを取得することと、
前記出力データに基づいて、前記処理べきテキストの種別を決定することと、を含み、
ここで、前記テキスト品質評価モデルは、請求項１－８のいずれか一項に記載の方法を採用してトレーニングして得られる
テキスト品質の決定方法。
テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられるテキスト決定モジュールと、
前記第一テキスト及び前記第二テキストのうちのいずれか一つのテキストに対して、前記いずれか一つのテキストが満たす条件に基づいて前記いずれか一つのテキストにタグを添加し、前記タグは前記いずれか一つのテキストの種別を示し、前記種別はネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むタグ添加モジュールと、
前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、前記テキスト品質評価モデルをトレーニングすることに用いられる第一モデルトレーニングモジュールと、を含む
テキスト品質評価モデルのトレーニング装置。
前記テキスト品質評価モデルは、語義表示ネットワークを含み、
前記装置は、さらに
前記第一モデルトレーニングモジュールが前記テキスト品質評価モデルをトレーニングする前に、前記複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得するネットワークトレーニングモジュールと、
前記事前にトレーニングされた語義表示ネットワークに基づいて、前記テキスト品質評価モデルを取得するモデル取得モジュールと、を含む
請求項１０に記載の装置。
前記テキスト決定モジュールは、
前記テキストに対する指標データに基づいて、前記複数のテキストにおける各テキストの満足度を決定する満足度決定サブモジュールと、
前記複数のテキストから満足度が第一閾値より小さいテキストを選択し、前記第一テキストを取得する第一テキスト取得サブモジュールと、
前記複数のテキストから満足度が第二閾値以上であるテキストを選択し、前記第二テキストを取得する第二テキスト取得サブモジュールと、を含み、
ここで、前記第一閾値は前記第二閾値より小さい
請求項１０に記載の装置。
前記各テキストに対する指標データは、少なくとも二つの指標データを含み、
前記満足度決定サブモジュールは、
前記各テキストに対する指標データに基づいて、所定の満足度関数値を決定する関数値決定ユニットと、
前記所定の満足度関数値を所定値の範囲内にマッピングし、前記各テキストの満足度を取得する満足度取得ユニットと、を含む
請求項１２に記載の装置。
テキストに対する指標データはテキスト配信者の指標データを含み、
前記テキスト決定モジュールは、
前記複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、前記第一テキストを取得する第三テキスト取得サブモジュールを含み、
ここで、前記テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率の少なくとも一つを含む
請求項１０－１３のいずれか一項に記載の装置。
前記テキストに対する指標データはテキストの表示属性を含み、
前記テキスト決定モジュールは、
前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得する第四テキスト取得サブモジュールを含む
請求項１０－１３のいずれか一項に記載の装置。
前記テキストに対する指標データはさらにテキストに対する行為データ及びテキスト配信者の指標データを含み、
前記第四テキスト取得サブモジュールは、
前記複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとする候補テキスト取得ユニットと、
前記テキストに対する行為データ及び前記テキスト配信者の指標データのうちの少なくとも一つに基づいて、前記候補テキストから目標テキストを取り除き、前記第一テキストを取得するテキスト取り除きユニットと、を含む
請求項１５に記載の装置。
目標テキストをトレーニングサンプルとして、第一モデルトレーニングモジュールがトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行う第二モデルトレーニングモジュールをさらに含み、
ここで、前記目標テキストは、テキストの実際の種別を示す人工マークタグを有する。
請求項１０に記載の装置。
テキスト品質を決定する装置であって、
処理べきテキストをテキスト品質評価モデルの入力とし、前記テキスト品質評価モデルの出力データを取得する出力データ取得モジュールと、
前記出力データに基づいて、前記処理べきテキストの種別を決定するテキスト品質決定モジュールと、を含み、
ここで、前記テキスト品質評価モデルは、請求項１０－１７のいずれか一項に記載の方法を採用してトレーニングして得られる
テキスト品質の決定装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項１－９のいずれか一項に記載の方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される、
電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１－９のいずれか一項に記載の方法を実行させるために用いられる
記憶媒体。
プロセッサにより実行される時に請求項１－９のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。