JP2023536773A - テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP2023536773A
JP2023536773A JP2022560062A JP2022560062A JP2023536773A JP 2023536773 A JP2023536773 A JP 2023536773A JP 2022560062 A JP2022560062 A JP 2022560062A JP 2022560062 A JP2022560062 A JP 2022560062A JP 2023536773 A JP2023536773 A JP 2023536773A
Authority
JP
Japan
Prior art keywords
text
texts
training
quality
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022560062A
Other languages
English (en)
Inventor
恒 王
振 雷 田
天 宝 于
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023536773A publication Critical patent/JP2023536773A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/133Evaluation of quality of the acquired characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1912Selecting the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、機器、記憶媒体およびコンピュータプログラムを提供する。人工知能技術分野に関し、より具体的に、自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関する。該テキスト品質評価モデルのトレーニング方法は、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、該タグがいずれか一つのテキストの種別を示し、種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることと、を含む。

Description

本願は、2021年07月12日に出願された中国特許出願第202110787492.3である優先権を主張し、そのコンテンツは併せてここで参考とする。
[技術分野]
本開示は、人工知能技術分野に関し、具体的に自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関し、より具体的には、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器及び記憶媒体に関する。
コンピュータ技術及びネットワーク技術の発展に伴い、テキストが情報の伝播キャリアとして十分に発展している。ユーザに効率的なテキスト検索及びテキスト推薦等のサービスを提供するために、一般的にテキストの品質を評価する必要があり、それによりユーザに高品質のテキストを提供する。
関連技術において、一般的に人工でサンプルをマークして分類モデルをトレーニングし、次に分類モデルを用いてテキスト品質を予測することにより、テキストライブラリから高品質のテキストを選別してユーザに推薦する。
本開示は、モデルのトレーニングコストを削減し、且つモデルの精度を向上するテキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、テキスト品質評価モデルのトレーニング方法を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、該種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることと、を含む。
本開示の他の態様によれば、テキスト品質の決定方法を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得することと、出力データに基づいて、処理べきテキストの種別を決定することと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング方法を採用してトレーニングして得られる。
本開示の他の態様によれば、テキスト品質評価モデルのトレーニング装置を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられるテキスト決定モジュールと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むタグ添加モジュールと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることに用いられる第一モデルトレーニングモジュールと、を含む。
本開示の他の態様によれば、テキスト品質の決定装置を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得する出力データ取得モジュールと、出力データに基づいて、処理べきテキストの種別を決定するテキスト品質決定モジュールと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング装置を採用してトレーニングして得られる。
本開示の他の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、少なくとも一つのプロセッサが本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行することができるように、命令は少なくとも一つのプロセッサにより実行される。
本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行させるために用いられる。
本開示の他の態様によれば、プロセッサにより実行される時に本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。
図1は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の応用シーンの概略図である。 図2は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法のフローの概略図である。 図3は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。 図4は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。 図5は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。 図6は、本開示の実施例に係るテキスト品質の決定方法のフローの概略図である。 図7は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。 図8は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。 図9は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、理解しやすいために、本開示の実施例の様々な詳細を含み、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
本開示は、テキスト決定段階、タグ添加段階及びモデルトレーニング段階を含むテキスト品質評価モデルのトレーニング方法を提供する。テキスト決定段階において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。タグ添加段階において、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて該いずれか一つのテキストにタグを添加し、該タグは、いずれか一つのテキストの種別を指示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。モデルトレーニング段階において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。
以下に図1を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図1は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の応用シーンの概略図である。
図1に示すように、該実施例のシーン100は、第一サーバ110及び第一データベース120を含み、第一サーバ110は、例えばネットワークを介して第一データベース120にアクセスすることができる。ネットワークは、有線又は無線通信リンクを含むことができる。
該第一データベース120は、例えばテキストライブラリであってもよく、該テキストライブラリに品質評価が行われていない複数のテキストがメンテナンスされる。該複数のテキストは、例えばユーザが問題に対して提供した回答テキストであってもよく、又はユーザがアップロードした任意の種別のテキストであってもよく、本開示はこれを限定しない。
一実施例において、第一サーバ110は、リコール規則に基づいて第一データベース120から条件を満たすテキストをリコールし、リコールされたテキスト130を取得することができる。リコール条件は、例えば、テキストの閲覧量、サムズアップ量、サムズダウン量などの指標データに基づいて設定されることができる。これにより、第一データベース120から、ポジティブサンプルとネガティブサンプルをリコールする。そして、リコールされたテキスト130に対応するリコール条件に基づいて、リコールされたテキスト130にタグを添加し、タグを有するテキスト140を取得する。例えば、リコールされたネガティブサンプルに低品質種別を指示するタグを添加し、リコールされたポジティブサンプルに非低品質種別を指示するタグを添加する。
一実施例において、図1に示すように、該応用シーン100は、第二サーバ150をさらに含むことができ、該第二サーバ150は、例えば第一サーバ110が生成したタグを有するテキストを受信し、かつ該テキストをトレーニングサンプルとして、テキスト品質評価モデル160をトレーニングすることができる。このように、トレーニングされたテキスト品質評価モデル160に基づいて品質評価を行っていないテキストに対して品質評価を行うことができる。該第二サーバ150は、例えばネットワークを介して第一データベース120にアクセスすることにより、第一データベース120から品質評価を行っていないテキストを取得する。該第二サーバ150は、品質評価が完了したテキストを第二データベース170に書き込んでもよい。
一実施例において、図1に示すように、該応用シーン100は、端末装置180をさらに含むことができ、該端末装置180は、マンマシンインタラクション機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型の便利なコンピュータ及びデスクトップコンピュータ等を含むが、それらに限定されない。この端末装置180は、例えばネットワークを介して第二サーバ150と対話することができる。例えば、端末装置180は、ユーザが該端末装置180を介してアップロードしたテキスト190を第二サーバ150に送信し、第二サーバ150により、テキスト品質評価モデル160を用いて該アップロードされたテキスト190に対して品質評価を行うことができる。該第二サーバ150は、さらに品質評価を完了した後、該アップロードされたテキストおよび品質評価結果を第二データベース170に書き込むことができる。
一実施例において、該応用シーンは、質問応答理解技術シーンであってもよい。ここで、質問応答理解技術とは、問題テキストに対する語義理解により、適切な回答にマッチングするか又は回答が問題の要求を満たすか否かを判断することを意味している。インターネットの急速な発展に伴い、ネットワークには毎日大量の情報が生成される。該大量の情報を取得するために、ますます多くの検索エンジンが開発され使用される。各検索エンジンは、該語義理解技術により、それぞれ収録された情報ライブラリから、ユーザのニーズに関連する情報を検索してユーザにフィードバックする。図1の応用シーンにより、該テキスト品質評価モデル160を介して各問題に対する回答テキストに対して品質評価を行なうことができる。このように、各検索エンジンはユーザが提供した問題テキストに基づいて、高品質の回答をリコールしてユーザにフィードバックし、ユーザ体験を向上させることができる。
一実施例において、第一サーバ110および第二サーバ150は、例えば同一のサーバであってもよい。第一データベース120および第二データベース170は、例えば、同一のデータベースの二つの記憶区画領域であってもよい。例えば、第一サーバ110は、例えば得られたタグを有するテキストに基づいて、テキスト品質評価モデルをトレーニングすることができる。
説明すべきこととして、本開示の実施例が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法は一般的に第二サーバ150により実行されてもよく、又は一部が第一サーバ110により実行され、他部が第二サーバ150により実行されてもよい。相応的には、本開示の実施例が提供するテキスト品質評価モデルのトレーニング装置及び/又はテキスト品質の決定装置は、第二サーバ150に設置されてもよく、又は一部が第一サーバ110に設置され、他部が第二サーバ150に設置されてもよい。
理解すべきこととして、図1における第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置の数及びタイプは単に例示的である。実現需要に応じて、任意のデータ及びタイプの第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置を有することができる。
以下に図1を参照し、以下の図2~図5により本開示が提供するテキスト品質評価モデルのトレーニング方法を詳細に説明する。
図2に示すように、該実施例のテキスト品質評価モデルのトレーニング方法200は操作S210~操作S230を含むことができる。
操作S210において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。
ここで、例えば一つのテキストに対して生成されたインタラクション行為を統計することにより、該テキストに関連する複数の指標データを取得することができる。テキストに対する指標データは、例えばテキストが配信者以外の他のユーザにより閲覧又は操作される状況を表すことができ、例えば、指標データは、テキストの閲覧量、サムズアップ量、サムズダウン量、テキストが採用される状況等を含むことができる。一実施例において、該テキストに対する指標データは例えばテキストの配信者の指標データを示すことができる。当該配信者の指標データは、例えば、配信者の関連アカウントのレベル、関連アカウントが会員アカウントであるか否か、配信者が配信したテキストの数、配信者が配信したテキストの品質等を含んでもよい。又は、該テキストに対する指標データは、例えば複数のテキストに対する表示位置、テキストの表示完全性、テキストが折り畳まれて表示されるか否か等のテキストの表示属性を含むことができる。本開示は、該テキストに対する指標データを限定せず、該テキストに対する指標データがある程度でテキストの品質を反映することができればよい。
本開示の実施例によれば、複数のテキストは、例えばテキストライブラリにメンテナンスされた全量テキストであってもよい。ネガティブサンプル条件及びポジティブサンプル条件は、テキストに対する指標データに基づいて設定された条件である。例えば、ネガティブサンプル条件は、サムズダウン量がサムズダウン量閾値以上であってもよく、ポジティブサンプルの条件は、サムズアップ量がサムズアップ量閾値以上であってもよい。リコールされたポジティブサンプル条件を満たす第二テキストの正確性を向上させるために、該ポジティブサンプル条件の限界のテキスト品質に対する要求は、ネガティブサンプル条件の限界のテキスト品質に対する要求より高いことができる。該ネガティブサンプル条件及びポジティブサンプル条件は、実際の需要に応じて設定することができ、本開示はこれを限定しない。
操作S220において、第一テキストと第二テキストのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて、該いずれか一つのテキストにタグを添加する。
本開示の実施例によれば、該タグは、例えばいずれか一つのテキストの種別を指示することができる。例えば、該いずれか一つのテキストがネガティブサンプル条件を満たす第一テキストであれば、該いずれか一つのテキストに低品質種別を指示するタグを添加する。該いずれか一つのテキストがポジティブサンプル条件を満たす第二テキストであれば、該いずれか一つのテキストに非低品質種別を指示するタグを添加する。例えば、低品質種別を指示するタグは、1で表示されてもよく、非低品質種別を示すタグは、0で示されてもよい。
操作S230において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。
本開示の実施例によれば、トレーニングセットにおけるいずれか一つのテキストをテキスト品質評価モデルの入力として、該テキスト品質評価モデルの出力データに基づいてテキストが低品質種別であるか否かという評価結果を取得することができる。該評価結果をいずれか一つのテキストのタグ指示の種別と比較し、かつ比較結果に基づいて勾配降下アルゴリズム又は逆方向伝播アルゴリズムを採用して、テキスト品質評価モデルをトレーニングすることができる。
ここで、テキスト品質評価モデルは、例えば分類モデルであってもよく、それによりテキスト品質の種別が低品質種別であるか否かを決定するために用いられる。この分類モデルは、例えば、fastTextモデル、textCNNモデル、RCNNモデル、Bi-LSTMモデルなどを含むことができる。該分類モデルは、語義特徴抽出層及び完全接続層を含み、語義特徴抽出層は、語義特徴を抽出するために用いられ、完全接続層は、語義特徴を種別次元の空間にマッピングし、分類予測結果を出力するために用いられる。
以上により、本開示の実施例は、テキスト品質評価モデルをトレーニングする際に、指標データに基づいてテキストライブラリから条件を満たすテキストをリコールし、かつテキストが満たす条件に基づいてテキストにタグを添加するという方式を採用することにより、サンプルセットの自動生成を実現することができる。ある種別のサンプルデータが少ない場合に、条件を満たすテキストをリコールしてトレーニングセットを生成することにより、各種別のサンプルデータの割合をバランスさせることができ、したがって、テキスト品質評価モデルがトレーニング過程においてテキスト特徴と各品質評価結果との関連関係を十分に学習することができ、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。さらに、該実施例のトレーニング方法に基づいて、モデルに対するコールドスタートトレーニングを実現することができる。
図3は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。
本開示の実施例によれば、テキスト品質評価モデルは、例えば語義表示ネットワークを含むことができ、それにより抽出されたテキスト特徴は、テキストの語義をより正確に表示する。一実施例において、該語義表示ネットワークは、例えば事前トレーニングモデルを採用することができる。該事前トレーニングモデルは、埋め込み型言語モデル(Embeddings form Language Models,ELMo)又はtransformerに基づく双方向符号化表現モデル(Bidirectional Encoder Representation from Transformers,BERT)などを含むことができる。該実施例において、該語義表示ネットワークを事前にトレーニングし、事前にトレーニングされた語義表示ネットワークを用いてテキスト品質評価モデルを構築することができる。
図3に示すように、該実施例のテキスト品質評価モデルをトレーニングする方法300は、まずテキストライブラリ310における複数のテキストに基づいて、該語義表示ネットワーク320をトレーニングし、事前にトレーニングされた語義表示ネットワーク330を取得することができる。その後に、事前にトレーニングされた語義表示ネットワーク330に基づいて、この事前にトレーニングされた語義表示ネットワーク330の出力方向に完全接続層340等のネットワーク構造をスティッチングすることにより、テキスト品質評価モデル350を取得する。
本開示の実施例によれば、語義表示ネットワーク320がBERTモデルであることを例とし、該語義表示ネットワーク320をトレーニングする場合、マスク言語モデル(Masked Language Model,MLM)タスク及び次のセンテンス予測(Next Sentence Prediction,NSP)タスクという二つの事前トレーニングタスクを構築することができる。ここで、MLMタスクを完了する時に、所定の確率(例えば15%)でmask token([MASK])で各トレーニングシーケンスにおけるtokenをランダムに置き換え、次に[MASK]位置の単語を予測することができる。該予測された単語と[MASK]位置での実際の単語との間の差異に基づいて、該BERTモデルをトレーニングする。NSPタスクを完了する時、例えばテキストライブラリから二つのセンテンステキスト(センテンステキストAとセンテンステキストB)をランダムに選び出し、一つのトレーニングサンプルを構成することができる。50%の場合、センテンステキストBはセンテンステキストAの次のセンテンスであり(IsNextと表記する)であり、50%の残った場合、センテンスBは、テキストライブラリにおけるランダムセンテンステキスト(NotNextと表記する)である。その後に、該トレーニングサンプルをBERTモデルに入力し、二分類の予測を行い、予測結果とタグとの間の差異に基づいてBERTモデルをトレーニングする。
図3に示すように、テキスト品質評価モデル350を取得した後、前述の方法を採用してテキストライブラリ310から第一テキスト360及び第二テキスト370をリコールすることができ、該第一テキスト360及び第二テキスト370にそれぞれタグを添加した後に、トレーニングセット380を取得する。そして、このトレーニングセット380に基づいて、テキスト品質評価モデル350をトレーニングする。理解できるように、該テキストライブラリ310から第一テキスト360及び第二テキスト370をリコールする操作は、例えば前述の語義表示ネットワークをトレーニングする操作と同時に実行することができ、又は任意の順序に基づいてこの二つの部分操作を実行することができ、本開示はこれを限定しない。
該実施例は、全量テキストに基づいて語義表示ネットワークに事前トレーニングを行い、かつ事前にトレーニングして得られた語義表示ネットワークに基づいて、テキスト品質評価モデルを構築し、得られたテキスト品質評価モデルの語義表現能力を向上させることができる。これは、語義表示ネットワークが語義特徴を抽出し、少ないサンプルの影響を受けないためである。したがって、ある程度でトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させることができる。
本開示の実施例によれば、前述のリコール方法で得られたトレーニングセットを用いてテキスト品質評価モデルをトレーニングする方法は、実質的に弱教師あり学習方法である。トレーニングセットを使用してテキスト品質評価モデルへのトレーニングを完了した後、該実施例は、さらに人工でマークされたタグを有するトレーニングテキストを採用することにより、テキスト品質評価モデルに強教師あり学習を行なわせることができる。具体的にはテキストの実際の種別を指示する人工でマークされたタグを有する目標テキストをトレーニングサンプルとして、トレーニングセットを採用してトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うことができる。この二次トレーニング過程は、前述のトレーニングセットに基づいてトレーニングする過程と類似している。該方式により、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性をさらに向上させることができる。ここで、テキストの実際の種別は、低品質種別及び非低品質種別を含むことができる。
図4は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。
本開示の実施例によれば、図4に示すように、該実施例400は、テキストライブラリ410から第一テキスト及び第二テキストをリコールする時、例えば該テキストライブラリ410におけるいずれか一つのテキスト420に対して、該いずれか一つのテキスト420の指標データ430に基づいて、該いずれか一つのテキストの満足度を決定することができる。次に、該いずれか一つのテキストの満足度に基づいて、該いずれか一つのテキストが第一テキストであるか、第二テキストであるか、あるいは第一テキスト及び第二テキスト以外の他のテキストであるかを決定する。該いずれか一つのテキスト420が第一テキスト又は第二テキストであれば、テキストライブラリ410から該いずれか一つのテキストを読み取る。
本開示の実施例によれば、該テキストの満足度が第一閾値より小さいか否かを決定することができ、第一閾値より小さければ、該いずれか一つのテキストが第一テキストであると決定し、すなわち該テキストはネガティブサンプル条件を満たすテキストである。該テキストの満足度が該第一閾値より大きく、かつ第二閾値以上であれば、該いずれか一つのテキストが第二テキストであると決定することができ、すなわち該テキストはポジティブサンプル条件を満たすテキストである。該テキストの満足度が第一閾値と第二閾値との間にある場合、該いずれか一つのテキストが他のテキストであると決定することができる。ここで、第二閾値は第一閾値より大きい。該第一閾値、及び該第一閾値より大きい第二閾値を設定することにより、テキストがリコールを必要とするテキストであるか否かを決定し、リコールして得られた第一テキスト及び第二テキストの正確性を向上させることができる。
本開示の実施例によれば、テキストに対する指標データは、例えば前述のサムズアップ数、閲覧数等を含むことができ、該テキストの満足度は、例えば該サムズアップ数に正相関し、該閲覧数に正相関することができる。又は、該指標データは、サムズダウン数を含むことができ、テキストの満足度は、該サムズダウン数に負相関することができる。又は、テキストに対する指標データは、例えばテキスト配信者の指標データを含むことができ、該テキスト配信者の指標データが配信者の関連アカウントのレベルを含むと、テキストの満足度は、例えばレベルに正相関することができる。又は、配信者の指標データは、配信者が配信したテキストの品質を含むことができ、テキストの満足度は、例えば該品質に正相関することができる。
一実施例において、テキストに対する指標データは、例えば複数のデータであってもよく、テキストの満足度を決定する時、該複数のデータを総合的に考慮することができる。該テキストの満足度を容易に決定するために、図4に示すように、該実施例は、所定の満足度関数440を提供することができる。該実施例は、いずれか一つのテキスト420に対する指標データ430に基づいて、該所定の満足度関数440の関数値450を決定し、該関数値450を満足度とすることができる。理解できるように、該所定の満足度関数440は、前述の満足度と各指標データとの間の関係(すなわち正相関関係又は負相関関係)を体現することができ、本開示は、該所定の満足度関数の表現式を限定しない。
例えば、該所定の満足度関数は、以下のように表示することができる:
Figure 2023536773000002

a、b、c、dは、非負の定数であり、これらの定数の値は、実際の需要に応じて設定することができ、本開示はこれを限定しない。理解されるように、上記所定の満足度関数は例として本開示を理解することに役立ち、本開示はこれを限定しない。
本開示の実施例によれば、統計を容易にするために、関数値450を所定値の範囲内にマッピングし、マッピングして得られた値をいずれか一つのテキスト420の満足度460とすることができる。テキストライブラリ410における各テキストに対して、いずれも前述の方法を採用して各テキストの満足度を得ることができる。それにより該満足度に基づいて該各テキストが満たす条件(即ちネガティブサンプル条件又はポジティブサンプル条件)を決定し、第一テキスト及び第二テキストに対するリコールを実現する。
本開示の実施例によれば、テキストに対する指標データがテキスト配信者の指標データを含む場合、該実施例は、該テキスト配信者の指標データのみに基づいて複数のテキストからネガティブサンプル条件を満たす第一テキストをリコールすることができる。これは、テキスト配信者の指標データが不良である場合、一定の程度で該テキスト配信者の知識レベルが低いことを説明することができ、該テキスト配信者が配信するテキストの参考価値が一般的に低いためである。該方式により、ネガティブサンプルテキストのサンプルが少ないという問題を解決し、少ないサンプルに対するリコールを実現することができる。
例えば、該テキスト配信者の指標データがテキスト配信者のネガティブ影響を示すためのデータである場合、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、該選択されたテキストを第一テキストとすることができる。ここで、テキスト配信者のネガティブ影響を示すためのデータは、例えば配信されたテキストが収集テキストに属する比率又は配信テキストの重複率などの少なくとも一つを含むことができる。ここで、収集テキストとは、他人が配信したテキストから直接にコピーされたテキストであることを指す。配信テキストの重複率とは、配信されたテキストのうち、同一のテキストの割合である。理解されるように、本開示を理解するように、該テキスト配信者の指標データが例示のみであり、本開示はこれを限定しない。
図5は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。
本開示の実施例によれば、テキスト表示時に、一般的に質問者により折り畳んで表示されたテキストが質問者に対して参照価値がないテキストであることを考慮し、該実施例は、複数のテキストからネガティブサンプル条件を満たすテキストをリコールする時、テキストの表示属性に基づいて折り畳んて表示されたテキストをリコールしてもよい。相応的には、前述のテキストに対する指標データは、テキストの表示属性を含むべきである。
例えば、図5に示すように、該実施例500は、テキストライブラリ510におけるいずれか一つのテキスト520に対して、該いずれか一つのテキスト520の表示属性530が折り畳み表示であるか又は非折り畳み表示であることを決定することができる。該いずれか一つのテキスト520の表示属性が折り畳み表示であれば、該いずれか一つのテキスト520が第一テキストであると決定する。
一実施例において、図5に示すように、表示属性が折り畳み表示であるテキストを候補テキスト540とすることができる。該候補テキストに対する指標データにおける他の指標データ550に基づいて、該候補テキストから参照価値の高いテキストを取り除き、残りのテキストを第一テキスト560とする。該方式により、質問者の主観的な影響によるネガティブサンプルテキストに対する誤解の状況を回避することができる。ここで、他の指標データは、前述のテキストに対する行為データ及び/又はテキスト配信者の指標データであってもよい。この実施例では、候補テキストから、サムズアップ数がサムズアップ数閾値よりも高いテキストを取り除くようにしてもよい。又は、候補テキストにおけるあるテキストの配信者が配信したテキストにおいて、折り畳まれたテキストの割合を統計することができる。該折り畳まれたテキストの割合が折り畳み割合閾値より小さい場合、候補テキストから該あるテキストを取り除く。理解できるように、前述の取り除きルールは、単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。
本開示の実施例は、表示属性に基づいて折り畳んで表示されたテキストをリコールすることにより、第一テキストを取得し、リコールされたネガティブサンプルテキストの割合をさらに向上させ、ネガティブサンプルテキストのサンプルが少ないという問題を解決することができる。それによりトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。
本開示の実施例によれば、前述の複数種のリコール方法のうちの二種又は複数種の方法を採用してテキストライブラリから第一テキスト及び第二テキストをリコールすることができ、これによりリコールテキストの数を向上させる。少なくとも二種の方法を採用して第一テキスト及び第二テキストをリコールする場合、例えばリコールされた第一テキストに対して重複排除操作を行い、かつリコールされた第二テキストに重複排除操作を行うことができる。
前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質の決定方法をさらに提供する。以下、図6を参照しながら、この方法を詳細に説明する。
図6は、本開示の実施例に係るテキスト品質の決定方法のフローチャートである。
図6に示すように、該実施例のテキスト品質の決定方法600は、操作S610~操作S620を含むことができる。
操作S610において、処理べきテキストをテキスト品質評価モデルの入力として、テキスト品質評価モデルの出力データを取得する。
操作S620において、出力データに基づいて、処理べきテキストの種別を決定する。
ここで、テキスト品質評価モデルは、前述のテキスト品質評価モデルのトレーニング方法によりトレーニングして得られたものであってもよい。テキスト品質評価モデルの出力データは、直接に分類結果であってもよく、該分類結果が低品質種別であれば、処理べきテキストが低品質テキストであると決定し、そうでなければ、処理べきテキストが非低品質テキストであると決定する。又は、該テキスト品質評価モデルの出力データは、処理べきテキストが低品質テキストである確率であってもよい。該確率が確率閾値以上であれば、該処理べきテキストの種別が低品質種別であると決定し、そうでなければ、該処理べきテキストの種別が非低品質種別であると決定する。
本開示の実施例によれば、処理べきテキストをテキスト品質評価モデルに入力する前に、例えばまず該処理べきテキストを符号化し、符号化されたセンテンスベクトルを該テキスト品質評価モデルの入力とすることができる。
前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質評価モデルのトレーニング装置をさらに提供する。以下、図7を参照しながら、該装置を詳細に説明する。
図7は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。
図7に示すように、該実施例のテキスト品質評価モデルのトレーニング装置700は、テキスト決定モジュール710、タグ添加モジュール720及び第一モデルトレーニングモジュール730を含むことができる。
テキスト決定モジュール710は、テキストに対する指標データに基づいて、複数のテキストにおいてネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられる。一実施例において、テキスト決定モジュール710は、前述の操作S210を実行するために用いられ、ここで説明を省略する。
タグ添加モジュール720は、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加することに用いられ、該タグは、いずれか一つのテキストの種別を示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。一実施例において、タグ添加モジュール720は、前述の操作S220を実行するために用いられ、ここで説明を省略する。
第一モデルトレーニングモジュール730は、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングするために用いられる。一実施例において、第一モデルトレーニングモジュール730は、前述の操作S230を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、上記テキスト品質評価モデルは、語義表示ネットワークを含み、上記テキスト品質評価モデルのトレーニング装置700は、ネットワークトレーニングモジュール及びモデル取得モジュールをさらに含むことができる。ネットワークトレーニングモジュールは、第一モデルトレーニングモジュールがテキスト品質評価モデルをトレーニングする前に、複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得するために用いられる。モデル取得モジュールは、事前にトレーニングされた語義表示ネットワークに基づいて、テキスト品質評価モデルを取得するために用いられる。
本開示の実施例によれば、上記テキスト決定モジュール710は、例えば満足度決定サブモジュール、第一テキスト取得サブモジュール及び第二テキスト取得サブモジュールを含むことができる。満足度決定サブモジュールは、テキストに対する指標データに基づいて、複数のテキストにおける各テキストの満足度を決定するために用いられる。第一テキスト取得サブモジュールは、複数のテキストから、満足度が第一閾値より小さいテキストを選択し、第一テキストを取得するために用いられる。第二テキスト取得サブモジュールは、複数のテキストから、満足度が第二閾値以上であるテキストを選択し、第二テキストを取得するために用いられる。ここで、第一閾値は第二閾値より小さい。
本開示の実施例によれば、各テキストに対する指標データは、少なくとも二つの指標データを含む。上記満足度決定サブモジュールは、関数値決定ユニットと満足度取得ユニットとを含んでもよい。関数値決定ユニットは、各テキストに対する指標データに基づいて、所定の満足度関数値を決定するために用いられる。満足度取得ユニットは、所定の満足度関数値を所定値の範囲内にマッピングし、各テキストの満足度を取得するために用いられる。
本開示の実施例によれば、テキストに対する指標データは、テキスト配信者の指標データを含む。上記テキスト決定モジュール710は、第三テキスト取得サブモジュールを含み、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、第一テキストを取得するために用いられる。ここで、テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率のうちの少なくとも一つを含む。
本開示の実施例によれば、テキストに対する指標データは、テキストの表示属性を含む。上記テキスト決定モジュール710は、第四テキスト取得サブモジュールを含み、複数のテキストから表示属性が折り畳み表示であるテキストを選択し、第一テキストを取得するために用いられる。
本開示の実施例によれば、テキストに対する指標データは、テキストに対する行為データ及びテキスト配信者の指標データをさらに含む。第四テキスト取得サブモジュールは、候補テキスト取得ユニットと、テキスト取り除きユニットとを含んでもよい。候補テキスト取得ユニットは、複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとする。テキスト取り除きユニットは、テキストに対する行為データ及びテキスト配信者の指標データのうちの少なくとも一つに基づいて、候補テキストから目標テキストを取り除き、第一テキストを取得するために用いられる。
本開示の実施例によれば、上記テキスト品質評価モデルのトレーニング装置700は、第二モデルトレーニングモジュールをさらに含み、目標テキストをトレーニングサンプルとして、第一モデルトレーニングモジュールがトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うために用いられる。ここで、目標テキストは、テキストの実際の種別を指示する人工マークタグを有する。
前述のテキスト品質の決定方法に基づいて、本開示は、テキスト品質の決定装置をさらに提供する。以下、図8を参照しながら、この装置を詳細に説明する。
図8は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。
図8に示すように、該実施例のテキスト品質の決定装置800は、出力データ取得モジュール810及びテキスト品質決定モジュール820を含むことができる。
出力データ取得モジュール810は、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得するために用いられる。一実施例において、出力データ取得モジュール810は、前述の操作S610を実行するために用いられ、ここで説明を省略する。
テキスト品質決定モジュール820は、出力データに基づいて、処理べきテキストの種別を決定するために用いられる。一実施例において、テキスト品質決定モジュール820は、前述の操作S620を実行するために用いられ、ここで説明を省略する。
なお、本開示の技術案において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図9は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定法王を実施することが可能な電子機器900の一例を示す概略ブロック図である。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器はさらに様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図9に示すように、機器900は計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット901、ROM 902、およびRAM 903は、バス904を介して相互に接続されている。バス904には、入出力インタフェース905も接続されている。
機器900における複数の部品は、I/Oインタフェース905に接続され、例えばキーボード、マウス等の入力ユニット906と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット907と、例えば磁気ディスク、光ディスク等の記憶ユニット908と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット909とを含む。通信ユニット909は、機器900がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット901は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット901の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット901は、例えばテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法ような上記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法は、例えば記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して電子機器900にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM903にロードされて計算ユニット901により実行される場合、上記記載されたテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット901は、他の任意の適切な方式(例えば、ファームウェアを介する)によりテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。その中、サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または略して「VPS」) の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
本願は、2021年07月12日に出願された中国特許出願第202110787492.3である優先権を主張し、そのコンテンツは併せてここで参考とする。
[技術分野]
本開示は、人工知能技術分野に関し、具体的に自然言語処理分野、ディープラーニング分野及びインテリジェント推薦分野に関し、より具体的には、テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
コンピュータ技術及びネットワーク技術の発展に伴い、テキストが情報の伝播キャリアとして十分に発展している。ユーザに効率的なテキスト検索及びテキスト推薦等のサービスを提供するために、一般的にテキストの品質を評価する必要があり、それによりユーザに高品質のテキストを提供する。
関連技術において、一般的に人工でサンプルをマークして分類モデルをトレーニングし、次に分類モデルを用いてテキスト品質を予測することにより、テキストライブラリから高品質のテキストを選別してユーザに推薦する。
本開示は、モデルのトレーニングコストを削減し、且つモデルの精度を向上するテキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供する。
本開示の一態様によれば、テキスト品質評価モデルのトレーニング方法を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、該種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることと、を含む。
本開示の他の態様によれば、テキスト品質の決定方法を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得することと、出力データに基づいて、処理べきテキストの種別を決定することと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング方法を採用してトレーニングして得られる。
本開示の他の態様によれば、テキスト品質評価モデルのトレーニング装置を提供し、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられるテキスト決定モジュールと、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加し、タグがいずれか一つのテキストの種別を示し、種別がネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むタグ添加モジュールと、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングすることに用いられる第一モデルトレーニングモジュールと、を含む。
本開示の他の態様によれば、テキスト品質の決定装置を提供し、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得する出力データ取得モジュールと、出力データに基づいて、処理べきテキストの種別を決定するテキスト品質決定モジュールと、を含み、ここで、テキスト品質評価モデルは、前記のテキスト品質評価モデルのトレーニング装置を採用してトレーニングして得られる。
本開示の他の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、少なくとも一つのプロセッサが本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行することができるように、命令は少なくとも一つのプロセッサにより実行される。
本開示の他の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行させるために用いられる。
本開示の他の態様によれば、プロセッサにより実行される時に本開示が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実現するコンピュータプログラムを提供する。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。
図1は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の応用シーンの概略図である。 図2は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法のフローの概略図である。 図3は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。 図4は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。 図5は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。 図6は、本開示の実施例に係るテキスト品質の決定方法のフローの概略図である。 図7は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。 図8は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。 図9は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、理解しやすいために、本開示の実施例の様々な詳細を含み、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することがないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
本開示は、テキスト決定段階、タグ添加段階及びモデルトレーニング段階を含むテキスト品質評価モデルのトレーニング方法を提供する。テキスト決定段階において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。タグ添加段階において、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて該いずれか一つのテキストにタグを添加し、該タグは、いずれか一つのテキストの種別を指示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。モデルトレーニング段階において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。
以下に図1を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図1は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の応用シーンの概略図である。
図1に示すように、該実施例のシーン100は、第一サーバ110及び第一データベース120を含み、第一サーバ110は、例えばネットワークを介して第一データベース120にアクセスすることができる。ネットワークは、有線又は無線通信リンクを含むことができる。
該第一データベース120は、例えばテキストライブラリであってもよく、該テキストライブラリに品質評価が行われていない複数のテキストがメンテナンスされる。該複数のテキストは、例えばユーザが問題に対して提供した回答テキストであってもよく、又はユーザがアップロードした任意の種別のテキストであってもよく、本開示はこれを限定しない。
一実施例において、第一サーバ110は、リコール規則に基づいて第一データベース120から条件を満たすテキストをリコールし、リコールされたテキスト130を取得することができる。リコール条件は、例えば、テキストの閲覧量、サムズアップ量、サムズダウン量などの指標データに基づいて設定されることができる。これにより、第一データベース120から、ポジティブサンプルとネガティブサンプルをリコールする。そして、リコールされたテキスト130に対応するリコール条件に基づいて、リコールされたテキスト130にタグを添加し、タグを有するテキスト140を取得する。例えば、リコールされたネガティブサンプルに低品質種別を指示するタグを添加し、リコールされたポジティブサンプルに非低品質種別を指示するタグを添加する。
一実施例において、図1に示すように、該応用シーン100は、第二サーバ150をさらに含むことができ、該第二サーバ150は、例えば第一サーバ110が生成したタグを有するテキストを受信し、かつ該テキストをトレーニングサンプルとして、テキスト品質評価モデル160をトレーニングすることができる。このように、トレーニングされたテキスト品質評価モデル160に基づいて品質評価を行っていないテキストに対して品質評価を行うことができる。該第二サーバ150は、例えばネットワークを介して第一データベース120にアクセスすることにより、第一データベース120から品質評価を行っていないテキストを取得する。該第二サーバ150は、品質評価が完了したテキストを第二データベース170に書き込んでもよい。
一実施例において、図1に示すように、該応用シーン100は、端末装置180をさらに含むことができ、該端末装置180は、マンマシンインタラクション機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型の便利なコンピュータ及びデスクトップコンピュータ等を含むが、それらに限定されない。この端末装置180は、例えばネットワークを介して第二サーバ150と対話することができる。例えば、端末装置180は、ユーザが該端末装置180を介してアップロードしたテキスト190を第二サーバ150に送信し、第二サーバ150により、テキスト品質評価モデル160を用いて該アップロードされたテキスト190に対して品質評価を行うことができる。該第二サーバ150は、さらに品質評価を完了した後、該アップロードされたテキストおよび品質評価結果を第二データベース170に書き込むことができる。
一実施例において、該応用シーンは、質問応答理解技術シーンであってもよい。ここで、質問応答理解技術とは、問題テキストに対する語義理解により、適切な回答にマッチングするか又は回答が問題の要求を満たすか否かを判断することを意味している。インターネットの急速な発展に伴い、ネットワークには毎日大量の情報が生成される。該大量の情報を取得するために、ますます多くの検索エンジンが開発され使用される。各検索エンジンは、該語義理解技術により、それぞれ収録された情報ライブラリから、ユーザのニーズに関連する情報を検索してユーザにフィードバックする。図1の応用シーンにより、該テキスト品質評価モデル160を介して各問題に対する回答テキストに対して品質評価を行なうことができる。このように、各検索エンジンはユーザが提供した問題テキストに基づいて、高品質の回答をリコールしてユーザにフィードバックし、ユーザ体験を向上させることができる。
一実施例において、第一サーバ110および第二サーバ150は、例えば同一のサーバであってもよい。第一データベース120および第二データベース170は、例えば、同一のデータベースの二つの記憶区画領域であってもよい。例えば、第一サーバ110は、例えば得られたタグを有するテキストに基づいて、テキスト品質評価モデルをトレーニングすることができる。
説明すべきこととして、本開示の実施例が提供するテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法は一般的に第二サーバ150により実行されてもよく、又は一部が第一サーバ110により実行され、他部が第二サーバ150により実行されてもよい。相応的には、本開示の実施例が提供するテキスト品質評価モデルのトレーニング装置及び/又はテキスト品質の決定装置は、第二サーバ150に設置されてもよく、又は一部が第一サーバ110に設置され、他部が第二サーバ150に設置されてもよい。
理解すべきこととして、図1における第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置の数及びタイプは単に例示的である。実現需要に応じて、任意のデータ及びタイプの第一サーバ、第二サーバ、第一データベース、第二データベース及び端末装置を有することができる。
以下に図1を参照し、以下の図2~図5により本開示が提供するテキスト品質評価モデルのトレーニング方法を詳細に説明する。
図2に示すように、該実施例のテキスト品質評価モデルのトレーニング方法200は操作S210~操作S230を含むことができる。
操作S210において、テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する。
ここで、例えば一つのテキストに対して生成されたインタラクション行為を統計することにより、該テキストに関連する複数の指標データを取得することができる。テキストに対する指標データは、例えばテキストが配信者以外の他のユーザにより閲覧又は操作される状況を表すことができ、例えば、指標データは、テキストの閲覧量、サムズアップ量、サムズダウン量、テキストが採用される状況等を含むことができる。一実施例において、該テキストに対する指標データは例えばテキストの配信者の指標データを示すことができる。当該配信者の指標データは、例えば、配信者の関連アカウントのレベル、関連アカウントが会員アカウントであるか否か、配信者が配信したテキストの数、配信者が配信したテキストの品質等を含んでもよい。又は、該テキストに対する指標データは、例えば複数のテキストに対する表示位置、テキストの表示完全性、テキストが折り畳まれて表示されるか否か等のテキストの表示属性を含むことができる。本開示は、該テキストに対する指標データを限定せず、該テキストに対する指標データがある程度でテキストの品質を反映することができればよい。
本開示の実施例によれば、複数のテキストは、例えばテキストライブラリにメンテナンスされた全量テキストであってもよい。ネガティブサンプル条件及びポジティブサンプル条件は、テキストに対する指標データに基づいて設定された条件である。例えば、ネガティブサンプル条件は、サムズダウン量がサムズダウン量閾値以上であってもよく、ポジティブサンプルの条件は、サムズアップ量がサムズアップ量閾値以上であってもよい。リコールされたポジティブサンプル条件を満たす第二テキストの正確性を向上させるために、該ポジティブサンプル条件の限界のテキスト品質に対する要求は、ネガティブサンプル条件の限界のテキスト品質に対する要求より高いことができる。該ネガティブサンプル条件及びポジティブサンプル条件は、実際の需要に応じて設定することができ、本開示はこれを限定しない。
操作S220において、第一テキストと第二テキストのいずれか一つのテキストに対して、該いずれか一つのテキストが満たす条件に基づいて、該いずれか一つのテキストにタグを添加する。
本開示の実施例によれば、該タグは、例えばいずれか一つのテキストの種別を指示することができる。例えば、該いずれか一つのテキストがネガティブサンプル条件を満たす第一テキストであれば、該いずれか一つのテキストに低品質種別を指示するタグを添加する。該いずれか一つのテキストがポジティブサンプル条件を満たす第二テキストであれば、該いずれか一つのテキストに非低品質種別を指示するタグを添加する。例えば、低品質種別を指示するタグは、1で表示されてもよく、非低品質種別を示すタグは、0で示されてもよい。
操作S230において、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングする。
本開示の実施例によれば、トレーニングセットにおけるいずれか一つのテキストをテキスト品質評価モデルの入力として、該テキスト品質評価モデルの出力データに基づいてテキストが低品質種別であるか否かという評価結果を取得することができる。該評価結果をいずれか一つのテキストのタグ指示の種別と比較し、かつ比較結果に基づいて勾配降下アルゴリズム又は逆方向伝播アルゴリズムを採用して、テキスト品質評価モデルをトレーニングすることができる。
ここで、テキスト品質評価モデルは、例えば分類モデルであってもよく、それによりテキスト品質の種別が低品質種別であるか否かを決定するために用いられる。この分類モデルは、例えば、fastTextモデル、textCNNモデル、RCNNモデル、Bi-LSTMモデルなどを含むことができる。該分類モデルは、語義特徴抽出層及び完全接続層を含み、語義特徴抽出層は、語義特徴を抽出するために用いられ、完全接続層は、語義特徴を種別次元の空間にマッピングし、分類予測結果を出力するために用いられる。
以上により、本開示の実施例は、テキスト品質評価モデルをトレーニングする際に、指標データに基づいてテキストライブラリから条件を満たすテキストをリコールし、かつテキストが満たす条件に基づいてテキストにタグを添加するという方式を採用することにより、サンプルセットの自動生成を実現することができる。ある種別のサンプルデータが少ない場合に、条件を満たすテキストをリコールしてトレーニングセットを生成することにより、各種別のサンプルデータの割合をバランスさせることができ、したがって、テキスト品質評価モデルがトレーニング過程においてテキスト特徴と各品質評価結果との関連関係を十分に学習することができ、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。さらに、該実施例のトレーニング方法に基づいて、モデルに対するコールドスタートトレーニングを実現することができる。
図3は、本開示の実施例に係るテキスト品質評価モデルのトレーニング方法の原理概略図である。
本開示の実施例によれば、テキスト品質評価モデルは、例えば語義表示ネットワークを含むことができ、それにより抽出されたテキスト特徴は、テキストの語義をより正確に表示する。一実施例において、該語義表示ネットワークは、例えば事前トレーニングモデルを採用することができる。該事前トレーニングモデルは、埋め込み型言語モデル(Embeddings form Language Models,ELMo)又はtransformerに基づく双方向符号化表現モデル(Bidirectional Encoder Representation from Transformers,BERT)などを含むことができる。該実施例において、該語義表示ネットワークを事前にトレーニングし、事前にトレーニングされた語義表示ネットワークを用いてテキスト品質評価モデルを構築することができる。
図3に示すように、該実施例のテキスト品質評価モデルをトレーニングする方法300は、まずテキストライブラリ310における複数のテキストに基づいて、該語義表示ネットワーク320をトレーニングし、事前にトレーニングされた語義表示ネットワーク330を取得することができる。その後に、事前にトレーニングされた語義表示ネットワーク330に基づいて、この事前にトレーニングされた語義表示ネットワーク330の出力方向に完全接続層340等のネットワーク構造をスティッチングすることにより、テキスト品質評価モデル350を取得する。
本開示の実施例によれば、語義表示ネットワーク320がBERTモデルであることを例とし、該語義表示ネットワーク320をトレーニングする場合、マスク言語モデル(Masked Language Model,MLM)タスク及び次のセンテンス予測(Next Sentence Prediction,NSP)タスクという二つの事前トレーニングタスクを構築することができる。ここで、MLMタスクを完了する時に、所定の確率(例えば15%)でmask token([MASK])で各トレーニングシーケンスにおけるtokenをランダムに置き換え、次に[MASK]位置の単語を予測することができる。該予測された単語と[MASK]位置での実際の単語との間の差異に基づいて、該BERTモデルをトレーニングする。NSPタスクを完了する時、例えばテキストライブラリから二つのセンテンステキスト(センテンステキストAとセンテンステキストB)をランダムに選び出し、一つのトレーニングサンプルを構成することができる。50%の場合、センテンステキストBはセンテンステキストAの次のセンテンスであり(IsNextと表記する)であり、50%の残った場合、センテンスBは、テキストライブラリにおけるランダムセンテンステキスト(NotNextと表記する)である。その後に、該トレーニングサンプルをBERTモデルに入力し、二分類の予測を行い、予測結果とタグとの間の差異に基づいてBERTモデルをトレーニングする。
図3に示すように、テキスト品質評価モデル350を取得した後、前述の方法を採用してテキストライブラリ310から第一テキスト360及び第二テキスト370をリコールすることができ、該第一テキスト360及び第二テキスト370にそれぞれタグを添加した後に、トレーニングセット380を取得する。そして、このトレーニングセット380に基づいて、テキスト品質評価モデル350をトレーニングする。理解できるように、該テキストライブラリ310から第一テキスト360及び第二テキスト370をリコールする操作は、例えば前述の語義表示ネットワークをトレーニングする操作と同時に実行することができ、又は任意の順序に基づいてこの二つの部分操作を実行することができ、本開示はこれを限定しない。
該実施例は、全量テキストに基づいて語義表示ネットワークに事前トレーニングを行い、かつ事前にトレーニングして得られた語義表示ネットワークに基づいて、テキスト品質評価モデルを構築し、得られたテキスト品質評価モデルの語義表現能力を向上させることができる。これは、語義表示ネットワークが語義特徴を抽出し、少ないサンプルの影響を受けないためである。したがって、ある程度でトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させることができる。
本開示の実施例によれば、前述のリコール方法で得られたトレーニングセットを用いてテキスト品質評価モデルをトレーニングする方法は、実質的に弱教師あり学習方法である。トレーニングセットを使用してテキスト品質評価モデルへのトレーニングを完了した後、該実施例は、さらに人工でマークされたタグを有するトレーニングテキストを採用することにより、テキスト品質評価モデルに強教師あり学習を行なわせることができる。具体的にはテキストの実際の種別を指示する人工でマークされたタグを有する目標テキストをトレーニングサンプルとして、トレーニングセットを採用してトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うことができる。この二次トレーニング過程は、前述のトレーニングセットに基づいてトレーニングする過程と類似している。該方式により、トレーニングして得られたテキスト品質評価モデルの正確性及び安定性をさらに向上させることができる。ここで、テキストの実際の種別は、低品質種別及び非低品質種別を含むことができる。
図4は、本開示の実施例に係るネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定する原理概略図である。
本開示の実施例によれば、図4に示すように、該実施例400は、テキストライブラリ410から第一テキスト及び第二テキストをリコールする時、例えば該テキストライブラリ410におけるいずれか一つのテキスト420に対して、該いずれか一つのテキスト420の指標データ430に基づいて、該いずれか一つのテキストの満足度を決定することができる。次に、該いずれか一つのテキストの満足度に基づいて、該いずれか一つのテキストが第一テキストであるか、第二テキストであるか、あるいは第一テキスト及び第二テキスト以外の他のテキストであるかを決定する。該いずれか一つのテキスト420が第一テキスト又は第二テキストであれば、テキストライブラリ410から該いずれか一つのテキストを読み取る。
本開示の実施例によれば、該テキストの満足度が第一閾値より小さいか否かを決定することができ、第一閾値より小さければ、該いずれか一つのテキストが第一テキストであると決定し、すなわち該テキストはネガティブサンプル条件を満たすテキストである。該テキストの満足度が該第一閾値より大きく、かつ第二閾値以上であれば、該いずれか一つのテキストが第二テキストであると決定することができ、すなわち該テキストはポジティブサンプル条件を満たすテキストである。該テキストの満足度が第一閾値と第二閾値との間にある場合、該いずれか一つのテキストが他のテキストであると決定することができる。ここで、第二閾値は第一閾値より大きい。該第一閾値、及び該第一閾値より大きい第二閾値を設定することにより、テキストがリコールを必要とするテキストであるか否かを決定し、リコールして得られた第一テキスト及び第二テキストの正確性を向上させることができる。
本開示の実施例によれば、テキストに対する指標データは、例えば前述のサムズアップ数、閲覧数等を含むことができ、該テキストの満足度は、例えば該サムズアップ数に正相関し、該閲覧数に正相関することができる。又は、該指標データは、サムズダウン数を含むことができ、テキストの満足度は、該サムズダウン数に負相関することができる。又は、テキストに対する指標データは、例えばテキスト配信者の指標データを含むことができ、該テキスト配信者の指標データが配信者の関連アカウントのレベルを含むと、テキストの満足度は、例えばレベルに正相関することができる。又は、配信者の指標データは、配信者が配信したテキストの品質を含むことができ、テキストの満足度は、例えば該品質に正相関することができる。
一実施例において、テキストに対する指標データは、例えば複数のデータであってもよく、テキストの満足度を決定する時、該複数のデータを総合的に考慮することができる。該テキストの満足度を容易に決定するために、図4に示すように、該実施例は、所定の満足度関数440を提供することができる。該実施例は、いずれか一つのテキスト420に対する指標データ430に基づいて、該所定の満足度関数440の関数値450を決定し、該関数値450を満足度とすることができる。理解できるように、該所定の満足度関数440は、前述の満足度と各指標データとの間の関係(すなわち正相関関係又は負相関関係)を体現することができ、本開示は、該所定の満足度関数の表現式を限定しない。
例えば、該所定の満足度関数は、以下のように表示することができる:
Figure 2023536773000012

a、b、c、dは、非負の定数であり、これらの定数の値は、実際の需要に応じて設定することができ、本開示はこれを限定しない。理解されるように、上記所定の満足度関数は例として本開示を理解することに役立ち、本開示はこれを限定しない。
本開示の実施例によれば、統計を容易にするために、関数値450を所定値の範囲内にマッピングし、マッピングして得られた値をいずれか一つのテキスト420の満足度460とすることができる。テキストライブラリ410における各テキストに対して、いずれも前述の方法を採用して各テキストの満足度を得ることができる。それにより該満足度に基づいて該各テキストが満たす条件(即ちネガティブサンプル条件又はポジティブサンプル条件)を決定し、第一テキスト及び第二テキストに対するリコールを実現する。
本開示の実施例によれば、テキストに対する指標データがテキスト配信者の指標データを含む場合、該実施例は、該テキスト配信者の指標データのみに基づいて複数のテキストからネガティブサンプル条件を満たす第一テキストをリコールすることができる。これは、テキスト配信者の指標データが不良である場合、一定の程度で該テキスト配信者の知識レベルが低いことを説明することができ、該テキスト配信者が配信するテキストの参考価値が一般的に低いためである。該方式により、ネガティブサンプルテキストのサンプルが少ないという問題を解決し、少ないサンプルに対するリコールを実現することができる。
例えば、該テキスト配信者の指標データがテキスト配信者のネガティブ影響を示すためのデータである場合、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、該選択されたテキストを第一テキストとすることができる。ここで、テキスト配信者のネガティブ影響を示すためのデータは、例えば配信されたテキストが収集テキストに属する比率又は配信テキストの重複率などの少なくとも一つを含むことができる。ここで、収集テキストとは、他人が配信したテキストから直接にコピーされたテキストであることを指す。配信テキストの重複率とは、配信されたテキストのうち、同一のテキストの割合である。理解されるように、本開示を理解するように、該テキスト配信者の指標データが例示のみであり、本開示はこれを限定しない。
図5は、本開示の実施例の別の実施例に係るネガティブサンプル条件を満たす第一テキストを決定する原理概略図である。
本開示の実施例によれば、テキスト表示時に、一般的に質問者により折り畳んで表示されたテキストが質問者に対して参照価値がないテキストであることを考慮し、該実施例は、複数のテキストからネガティブサンプル条件を満たすテキストをリコールする時、テキストの表示属性に基づいて折り畳んて表示されたテキストをリコールしてもよい。相応的には、前述のテキストに対する指標データは、テキストの表示属性を含むべきである。
例えば、図5に示すように、該実施例500は、テキストライブラリ510におけるいずれか一つのテキスト520に対して、該いずれか一つのテキスト520の表示属性530が折り畳み表示であるか又は非折り畳み表示であることを決定することができる。該いずれか一つのテキスト520の表示属性が折り畳み表示であれば、該いずれか一つのテキスト520が第一テキストであると決定する。
一実施例において、図5に示すように、表示属性が折り畳み表示であるテキストを候補テキスト540とすることができる。該候補テキストに対する指標データにおける他の指標データ550に基づいて、該候補テキストから参照価値の高いテキストを取り除き、残りのテキストを第一テキスト560とする。該方式により、質問者の主観的な影響によるネガティブサンプルテキストに対する誤解の状況を回避することができる。ここで、他の指標データは、前述のテキストに対する行為データ及び/又はテキスト配信者の指標データであってもよい。この実施例では、候補テキストから、サムズアップ数がサムズアップ数閾値よりも高いテキストを取り除くようにしてもよい。又は、候補テキストにおけるあるテキストの配信者が配信したテキストにおいて、折り畳まれたテキストの割合を統計することができる。該折り畳まれたテキストの割合が折り畳み割合閾値より小さい場合、候補テキストから該あるテキストを取り除く。理解できるように、前述の取り除きルールは、単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。
本開示の実施例は、表示属性に基づいて折り畳んで表示されたテキストをリコールすることにより、第一テキストを取得し、リコールされたネガティブサンプルテキストの割合をさらに向上させ、ネガティブサンプルテキストのサンプルが少ないという問題を解決することができる。それによりトレーニングして得られたテキスト品質評価モデルの正確性及び安定性を向上させやすい。
本開示の実施例によれば、前述の複数種のリコール方法のうちの二種又は複数種の方法を採用してテキストライブラリから第一テキスト及び第二テキストをリコールすることができ、これによりリコールテキストの数を向上させる。少なくとも二種の方法を採用して第一テキスト及び第二テキストをリコールする場合、例えばリコールされた第一テキストに対して重複排除操作を行い、かつリコールされた第二テキストに重複排除操作を行うことができる。
前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質の決定方法をさらに提供する。以下、図6を参照しながら、この方法を詳細に説明する。
図6は、本開示の実施例に係るテキスト品質の決定方法のフローチャートである。
図6に示すように、該実施例のテキスト品質の決定方法600は、操作S610~操作S620を含むことができる。
操作S610において、処理べきテキストをテキスト品質評価モデルの入力として、テキスト品質評価モデルの出力データを取得する。
操作S620において、出力データに基づいて、処理べきテキストの種別を決定する。
ここで、テキスト品質評価モデルは、前述のテキスト品質評価モデルのトレーニング方法によりトレーニングして得られたものであってもよい。テキスト品質評価モデルの出力データは、直接に分類結果であってもよく、該分類結果が低品質種別であれば、処理べきテキストが低品質テキストであると決定し、そうでなければ、処理べきテキストが非低品質テキストであると決定する。又は、該テキスト品質評価モデルの出力データは、処理べきテキストが低品質テキストである確率であってもよい。該確率が確率閾値以上であれば、該処理べきテキストの種別が低品質種別であると決定し、そうでなければ、該処理べきテキストの種別が非低品質種別であると決定する。
本開示の実施例によれば、処理べきテキストをテキスト品質評価モデルに入力する前に、例えばまず該処理べきテキストを符号化し、符号化されたセンテンスベクトルを該テキスト品質評価モデルの入力とすることができる。
前述のテキスト品質評価モデルのトレーニング方法に基づいて、本開示は、テキスト品質評価モデルのトレーニング装置をさらに提供する。以下、図7を参照しながら、該装置を詳細に説明する。
図7は、本開示の実施例に係るテキスト品質評価モデルのトレーニング装置の構成ブロック図である。
図7に示すように、該実施例のテキスト品質評価モデルのトレーニング装置700は、テキスト決定モジュール710、タグ添加モジュール720及び第一モデルトレーニングモジュール730を含むことができる。
テキスト決定モジュール710は、テキストに対する指標データに基づいて、複数のテキストにおいてネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられる。一実施例において、テキスト決定モジュール710は、前述の操作S210を実行するために用いられ、ここで説明を省略する。
タグ添加モジュール720は、第一テキスト及び第二テキストのうちのいずれか一つのテキストに対して、いずれか一つのテキストが満たす条件に基づいていずれか一つのテキストにタグを添加することに用いられ、該タグは、いずれか一つのテキストの種別を示し、該種別は、ネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含む。一実施例において、タグ添加モジュール720は、前述の操作S220を実行するために用いられ、ここで説明を省略する。
第一モデルトレーニングモジュール730は、タグが添加された第一テキストとタグが添加された第二テキストをトレーニングセットとして構成し、テキスト品質評価モデルをトレーニングするために用いられる。一実施例において、第一モデルトレーニングモジュール730は、前述の操作S230を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、上記テキスト品質評価モデルは、語義表示ネットワークを含み、上記テキスト品質評価モデルのトレーニング装置700は、ネットワークトレーニングモジュール及びモデル取得モジュールをさらに含むことができる。ネットワークトレーニングモジュールは、第一モデルトレーニングモジュールがテキスト品質評価モデルをトレーニングする前に、複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得するために用いられる。モデル取得モジュールは、事前にトレーニングされた語義表示ネットワークに基づいて、テキスト品質評価モデルを取得するために用いられる。
本開示の実施例によれば、上記テキスト決定モジュール710は、例えば満足度決定サブモジュール、第一テキスト取得サブモジュール及び第二テキスト取得サブモジュールを含むことができる。満足度決定サブモジュールは、テキストに対する指標データに基づいて、複数のテキストにおける各テキストの満足度を決定するために用いられる。第一テキスト取得サブモジュールは、複数のテキストから、満足度が第一閾値より小さいテキストを選択し、第一テキストを取得するために用いられる。第二テキスト取得サブモジュールは、複数のテキストから、満足度が第二閾値以上であるテキストを選択し、第二テキストを取得するために用いられる。ここで、第一閾値は第二閾値より小さい。
本開示の実施例によれば、各テキストに対する指標データは、少なくとも二つの指標データを含む。上記満足度決定サブモジュールは、関数値決定ユニットと満足度取得ユニットとを含んでもよい。関数値決定ユニットは、各テキストに対する指標データに基づいて、所定の満足度関数値を決定するために用いられる。満足度取得ユニットは、所定の満足度関数値を所定値の範囲内にマッピングし、各テキストの満足度を取得するために用いられる。
本開示の実施例によれば、テキストに対する指標データは、テキスト配信者の指標データを含む。上記テキスト決定モジュール710は、第三テキスト取得サブモジュールを含み、複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、第一テキストを取得するために用いられる。ここで、テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率のうちの少なくとも一つを含む。
本開示の実施例によれば、テキストに対する指標データは、テキストの表示属性を含む。上記テキスト決定モジュール710は、第四テキスト取得サブモジュールを含み、複数のテキストから表示属性が折り畳み表示であるテキストを選択し、第一テキストを取得するために用いられる。
本開示の実施例によれば、テキストに対する指標データは、テキストに対する行為データ及びテキスト配信者の指標データをさらに含む。第四テキスト取得サブモジュールは、候補テキスト取得ユニットと、テキスト取り除きユニットとを含んでもよい。候補テキスト取得ユニットは、複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとする。テキスト取り除きユニットは、テキストに対する行為データ及びテキスト配信者の指標データのうちの少なくとも一つに基づいて、候補テキストから目標テキストを取り除き、第一テキストを取得するために用いられる。
本開示の実施例によれば、上記テキスト品質評価モデルのトレーニング装置700は、第二モデルトレーニングモジュールをさらに含み、目標テキストをトレーニングサンプルとして、第一モデルトレーニングモジュールがトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うために用いられる。ここで、目標テキストは、テキストの実際の種別を指示する人工マークタグを有する。
前述のテキスト品質の決定方法に基づいて、本開示は、テキスト品質の決定装置をさらに提供する。以下、図8を参照しながら、この装置を詳細に説明する。
図8は、本開示の実施例に係るテキスト品質の決定装置の構成ブロック図である。
図8に示すように、該実施例のテキスト品質の決定装置800は、出力データ取得モジュール810及びテキスト品質決定モジュール820を含むことができる。
出力データ取得モジュール810は、処理べきテキストをテキスト品質評価モデルの入力とし、テキスト品質評価モデルの出力データを取得するために用いられる。一実施例において、出力データ取得モジュール810は、前述の操作S610を実行するために用いられ、ここで説明を省略する。
テキスト品質決定モジュール820は、出力データに基づいて、処理べきテキストの種別を決定するために用いられる。一実施例において、テキスト品質決定モジュール820は、前述の操作S620を実行するために用いられ、ここで説明を省略する。
なお、本開示の技術案において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。
図9は、本開示の実施例のテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定法王を実施することが可能な電子機器900の一例を示す概略ブロック図である。電子機器は様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器はさらに様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図9に示すように、機器900は計算ユニット901を含み、それはリードオンリーメモリ(ROM)902に記憶されたコンピュータプログラム又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 903には、さらに機器900の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット901、ROM 902、およびRAM 903は、バス904を介して相互に接続されている。バス904には、入出力インタフェース905も接続されている。
機器900における複数の部品は、I/Oインタフェース905に接続され、例えばキーボード、マウス等の入力ユニット906と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット907と、例えば磁気ディスク、光ディスク等の記憶ユニット908と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット909とを含む。通信ユニット909は、機器900がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット901は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット901の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット901は、例えばテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法ような上記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法は、例えば記憶ユニット908のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して電子機器900にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM903にロードされて計算ユニット901により実行される場合、上記記載されたテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算ユニット901は、他の任意の適切な方式(例えば、ファームウェアを介する)によりテキスト品質評価モデルのトレーニング方法及び/又はテキスト品質の決定方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムブルプロセッサを含むプログラムブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムブルプロセッサは、専用又は汎用のプログラムブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラムブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてるかもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(声入力、音声入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。その中、サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または略して「VPS」) の既存の管理が困難であり、ビジネスの拡張性が低いという欠点を解決する。サーバは、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発明に記載の各ステップは、並列的に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
前記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われた任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (21)

  1. テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することと、
    前記第一テキスト及び前記第二テキストのうちのいずれか一つのテキストに対して、前記いずれか一つのテキストが満たす条件に基づいて前記いずれか一つのテキストにタグを添加し、前記タグは前記いずれか一つのテキストの種別を示し、前記種別はネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むことと、
    前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、前記テキスト品質評価モデルをトレーニングすることと、を含む
    テキスト品質評価モデルのトレーニング方法。
  2. 前記テキスト品質評価モデルは、語義表示ネットワークを含み、
    前記方法は、さらに前記テキスト品質評価モデルをトレーニングする前に、
    前記複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得することと、
    前記事前にトレーニングされた語義表示ネットワークに基づいて、前記テキスト品質評価モデルを取得することと、を含む
    請求項1に記載の方法。
  3. 複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することは、
    前記テキストに対する指標データに基づいて、前記複数のテキストにおける各テキストの満足度を決定することと、
    前記複数のテキストから満足度が第一閾値より小さいテキストを選択し、前記第一テキストを取得することと、
    前記複数のテキストから満足度が第二閾値以上であるテキストを選択し、前記第二テキストを取得することと、を含み、
    ここで、前記第一閾値は前記第二閾値より小さい
    請求項1に記載の方法。
  4. 前記各テキストに対する指標データは少なくとも二つの指標データを含み、
    前記複数のテキストにおける各テキストの満足度を決定することは、
    前記各テキストに対する指標データに基づいて、所定の満足度関数値を決定することと、
    前記所定の満足度関数値を所定値の範囲内にマッピングし、前記各テキストの満足度を取得することと、を含む
    請求項3に記載の方法。
  5. テキストに対する指標データはテキスト配信者の指標データを含み、
    複数のテキストにおけるネガティブサンプル条件を満たす第一テキストを決定することは、
    前記複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、前記第一テキストを取得することを含み、
    ここで、前記テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率の少なくとも一つを含む
    請求項1-4のいずれか一項に記載の方法。
  6. 前記テキストに対する指標データはテキストの表示属性を含み、
    複数のテキストにおける所定のネガティブサンプル条件を満たす第一テキストを決定することは、
    前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得することを含む
    請求項1-4のいずれか一項に記載の方法。
  7. 前記テキストに対する指標データはさらにテキストに対する行為データ及びテキスト配信者の指標データを含み、
    前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得することは、
    前記複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとすることと、
    前記テキストに対する行為データ及び前記テキスト配信者の指標データのうちの少なくとも一つに基づいて、前記候補テキストから目標テキストを取り除き、前記第一テキストを取得することと、を含む
    請求項6に記載の方法。
  8. さらに、前記テキスト品質評価モデルをトレーニングした後に、
    目標テキストをトレーニングサンプルとして、トレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行うことを含み、
    ここで、前記目標テキストは、テキストの実際の種別を示す人工マークタグを有する
    請求項1に記載の方法。
  9. テキスト品質を決定する方法であって、
    処理べきテキストをテキスト品質評価モデルの入力とし、前記テキスト品質評価モデルの出力データを取得することと、
    前記出力データに基づいて、前記処理べきテキストの種別を決定することと、を含み、
    ここで、前記テキスト品質評価モデルは、請求項1-8のいずれか一項に記載の方法を採用してトレーニングして得られる
    テキスト品質の決定方法。
  10. テキストに対する指標データに基づいて、複数のテキストにおけるネガティブサンプル条件を満たす第一テキストとポジティブサンプル条件を満たす第二テキストを決定することに用いられるテキスト決定モジュールと、
    前記第一テキスト及び前記第二テキストのうちのいずれか一つのテキストに対して、前記いずれか一つのテキストが満たす条件に基づいて前記いずれか一つのテキストにタグを添加し、前記タグは前記いずれか一つのテキストの種別を示し、前記種別はネガティブサンプルに対する低品質種別及びポジティブサンプルに対する非低品質種別を含むタグ添加モジュールと、
    前記タグが添加された第一テキストと前記タグが添加された第二テキストをトレーニングセットとして構成し、前記テキスト品質評価モデルをトレーニングすることに用いられる第一モデルトレーニングモジュールと、を含む
    テキスト品質評価モデルのトレーニング装置。
  11. 前記テキスト品質評価モデルは、語義表示ネットワークを含み、
    前記装置は、さらに
    前記第一モデルトレーニングモジュールが前記テキスト品質評価モデルをトレーニングする前に、前記複数のテキストに基づいて前記語義表示ネットワークをトレーニングし、事前にトレーニングされた語義表示ネットワークを取得するネットワークトレーニングモジュールと、
    前記事前にトレーニングされた語義表示ネットワークに基づいて、前記テキスト品質評価モデルを取得するモデル取得モジュールと、を含む
    請求項10に記載の装置。
  12. 前記テキスト決定モジュールは、
    前記テキストに対する指標データに基づいて、前記複数のテキストにおける各テキストの満足度を決定する満足度決定サブモジュールと、
    前記複数のテキストから満足度が第一閾値より小さいテキストを選択し、前記第一テキストを取得する第一テキスト取得サブモジュールと、
    前記複数のテキストから満足度が第二閾値以上であるテキストを選択し、前記第二テキストを取得する第二テキスト取得サブモジュールと、を含み、
    ここで、前記第一閾値は前記第二閾値より小さい
    請求項10に記載の装置。
  13. 前記各テキストに対する指標データは、少なくとも二つの指標データを含み、
    前記満足度決定サブモジュールは、
    前記各テキストに対する指標データに基づいて、所定の満足度関数値を決定する関数値決定ユニットと、
    前記所定の満足度関数値を所定値の範囲内にマッピングし、前記各テキストの満足度を取得する満足度取得ユニットと、を含む
    請求項12に記載の装置。
  14. テキストに対する指標データはテキスト配信者の指標データを含み、
    前記テキスト決定モジュールは、
    前記複数のテキストからテキスト配信者の指標データが所定の指標閾値より大きいテキストを選択し、前記第一テキストを取得する第三テキスト取得サブモジュールを含み、
    ここで、前記テキスト配信者の指標データは、テキスト配信者が配信したテキストが収集テキストに属する割合、テキスト配信者が配信したテキストの重複率の少なくとも一つを含む
    請求項10-13のいずれか一項に記載の装置。
  15. 前記テキストに対する指標データはテキストの表示属性を含み、
    前記テキスト決定モジュールは、
    前記複数のテキストから表示属性が折り畳み表示であるテキストを選択し、前記第一テキストを取得する第四テキスト取得サブモジュールを含む
    請求項10-13のいずれか一項に記載の装置。
  16. 前記テキストに対する指標データはさらにテキストに対する行為データ及びテキスト配信者の指標データを含み、
    前記第四テキスト取得サブモジュールは、
    前記複数のテキストから選択された表示属性が折り畳み表示であるテキストを候補テキストとする候補テキスト取得ユニットと、
    前記テキストに対する行為データ及び前記テキスト配信者の指標データのうちの少なくとも一つに基づいて、前記候補テキストから目標テキストを取り除き、前記第一テキストを取得するテキスト取り除きユニットと、を含む
    請求項15に記載の装置。
  17. 目標テキストをトレーニングサンプルとして、第一モデルトレーニングモジュールがトレーニングして得られたテキスト品質評価モデルに対して二次トレーニングを行う第二モデルトレーニングモジュールをさらに含み、
    ここで、前記目標テキストは、テキストの実際の種別を示す人工マークタグを有する。
    請求項10に記載の装置。
  18. テキスト品質を決定する装置であって、
    処理べきテキストをテキスト品質評価モデルの入力とし、前記テキスト品質評価モデルの出力データを取得する出力データ取得モジュールと、
    前記出力データに基づいて、前記処理べきテキストの種別を決定するテキスト品質決定モジュールと、を含み、
    ここで、前記テキスト品質評価モデルは、請求項10-17のいずれか一項に記載の方法を採用してトレーニングして得られる
    テキスト品質の決定装置。
  19. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
    前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記少なくとも一つのプロセッサが請求項1-9のいずれか一項に記載の方法を実行することができるように、前記命令は前記少なくとも一つのプロセッサにより実行される、
    電子機器。
  20. コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1-9のいずれか一項に記載の方法を実行させるために用いられる
    記憶媒体。
  21. プロセッサにより実行される時に請求項1-9のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
    コンピュータプログラム製品。
JP2022560062A 2021-07-12 2022-03-22 テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム Pending JP2023536773A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110787492.3 2021-07-12
CN202110787492.3A CN113392218A (zh) 2021-07-12 2021-07-12 文本质量评估模型的训练方法和确定文本质量的方法
PCT/CN2022/082273 WO2023284327A1 (zh) 2021-07-12 2022-03-22 文本质量评估模型的训练方法和确定文本质量的方法

Publications (1)

Publication Number Publication Date
JP2023536773A true JP2023536773A (ja) 2023-08-30

Family

ID=77625888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022560062A Pending JP2023536773A (ja) 2021-07-12 2022-03-22 テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Country Status (5)

Country Link
US (1) US20240221404A1 (ja)
EP (1) EP4148594A4 (ja)
JP (1) JP2023536773A (ja)
CN (1) CN113392218A (ja)
WO (1) WO2023284327A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法
CN114417159A (zh) * 2022-01-20 2022-04-29 上海喜马拉雅科技有限公司 内容质量评估方法、模型训练方法及相关装置
CN117609781B (zh) * 2023-11-20 2024-05-28 北京中关村科金技术有限公司 文本评估模型的训练方法、文本评估方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099265A (ja) * 2013-11-19 2015-05-28 株式会社Nttドコモ 地図情報提供装置、ユーザ端末、及び地図情報提供方法
JP2017215803A (ja) * 2016-05-31 2017-12-07 株式会社Nttドコモ 特徴語抽出装置
US20190199519A1 (en) * 2017-12-26 2019-06-27 Microsoft Technology Licensing, Llc Detecting and treating unauthorized duplicate digital content
CN111737446A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
US9600717B1 (en) * 2016-02-25 2017-03-21 Zepp Labs, Inc. Real-time single-view action recognition based on key pose analysis for sports videos
US20190130444A1 (en) * 2017-11-02 2019-05-02 Facebook, Inc. Modeling content item quality using weighted rankings
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN110046340A (zh) * 2018-12-28 2019-07-23 阿里巴巴集团控股有限公司 文本分类模型的训练方法和装置
CN110162779B (zh) * 2019-04-04 2023-08-04 北京百度网讯科技有限公司 病历质量的评估方法、装置及设备
CN110427609B (zh) * 2019-06-25 2020-08-18 首都师范大学 一种写人作文篇章结构合理性自动评测方法
CN111832312B (zh) * 2020-05-15 2024-05-17 北京嘀嘀无限科技发展有限公司 文本处理方法、装置、设备和存储介质
CN111737476B (zh) * 2020-08-05 2020-11-20 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN111984793A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 文本情感分类模型训练方法、装置、计算机设备及介质
CN112507082B (zh) * 2020-12-16 2024-08-16 作业帮教育科技(北京)有限公司 一种智能识别不当文本交互的方法、装置和电子设备
CN113392218A (zh) * 2021-07-12 2021-09-14 北京百度网讯科技有限公司 文本质量评估模型的训练方法和确定文本质量的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099265A (ja) * 2013-11-19 2015-05-28 株式会社Nttドコモ 地図情報提供装置、ユーザ端末、及び地図情報提供方法
JP2017215803A (ja) * 2016-05-31 2017-12-07 株式会社Nttドコモ 特徴語抽出装置
US20190199519A1 (en) * 2017-12-26 2019-06-27 Microsoft Technology Licensing, Llc Detecting and treating unauthorized duplicate digital content
CN111737446A (zh) * 2020-06-22 2020-10-02 北京百度网讯科技有限公司 用于构建质量评估模型的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113392218A (zh) 2021-09-14
EP4148594A1 (en) 2023-03-15
WO2023284327A1 (zh) 2023-01-19
US20240221404A1 (en) 2024-07-04
EP4148594A4 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
KR102564144B1 (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
Snyder et al. Interactive learning for identifying relevant tweets to support real-time situational awareness
KR20220113881A (ko) 사전 훈련 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP2023536773A (ja) テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20220318275A1 (en) Search method, electronic device and storage medium
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
WO2023040230A1 (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN114461943B (zh) 基于深度学习的多源poi语义匹配方法、装置及其存储介质
US20220198358A1 (en) Method for generating user interest profile, electronic device and storage medium
CN117688946A (zh) 基于大模型的意图识别方法、装置、电子设备和存储介质
CN117112866A (zh) 基于图表示学习的社交网络节点迁移可视化方法及系统
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
WO2024007119A1 (zh) 文本处理模型的训练方法、文本处理的方法及装置
CN114201607B (zh) 一种信息处理的方法和装置
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114116914A (zh) 基于语义标签的实体检索方法、装置及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220930

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240604