JP2022184827A - テキスト処理装置、方法、機器及びコンピュータ可読記憶媒体 - Google Patents
テキスト処理装置、方法、機器及びコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP2022184827A JP2022184827A JP2022089393A JP2022089393A JP2022184827A JP 2022184827 A JP2022184827 A JP 2022184827A JP 2022089393 A JP2022089393 A JP 2022089393A JP 2022089393 A JP2022089393 A JP 2022089393A JP 2022184827 A JP2022184827 A JP 2022184827A
- Authority
- JP
- Japan
- Prior art keywords
- text
- user
- users
- target
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】所望する要約を取得できるテキスト処理装置、テキスト処理方法、テキスト処理機器及びコンピュータ可読記憶媒体を提供する。【解決手段】テキスト処理装置は、複数のユーザのユーザデータを取得するためのユーザデータ取得モジュールと、複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得するためのトレーニングモジュールとを含み、第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる。【選択図】図20
Description
本開示は、テキスト処理分野に関し、具体的には、テキスト処理装置、テキスト処理方法、テキスト処理機器及びコンピュータ可読記憶媒体に関する。
テキスト要約抽出とは、明確な意味を持つ一つのテキストの内容を高度に要約して抽象化させ、テキストの要約を生成することである。要約については、各ユーザが注目する焦点が異なり、且つ所望の言語スタイル(例えば、用語、語順など)が異なる可能性があるため、ユーザの都合の良いインタラクション又はユーザ設定によって、元のシステムが生成した要約を取得するか、又は変更してユーザが所望する要約を取得できることが所望される。
以上の問題に鑑みて、本開示は、テキスト処理装置、テキスト処理方法、テキスト処理機器及びコンピュータ可読記憶媒体を提供する。
本開示の一態様によれば、テキストを処理して要約を抽出するためのテキスト処理装置を提供し、前記テキスト処理装置は、複数のユーザのユーザデータを取得するためのユーザデータ取得モジュールと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得するためのトレーニングモジュールとを含み、前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる。
本開示の一例によれば、前記ユーザデータ取得モジュールは、第1の所定の規則に基づいて前記複数のユーザのユーザデータを複数のデータカテゴリに分類することができ、前記トレーニングモジュールは、前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングし、前記複数のデータカテゴリに対するターゲットモデルを取得し、前記第1の所定の規則は、ユーザ行動に関連されている。
本開示の一例によれば、前記第1の所定の規則は、クラスタリング(clustering)規則又は回帰(regression)規則である。
本開示の一例によれば、前記トレーニングモジュールは、前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、前記複数のユーザのうちの各ユーザに対するターゲットモデルを取得する。
本開示の一例によれば、前記複数のユーザのユーザデータは、所定の期間のユーザデータを表す。
本開示の一例によれば、前記テキスト処理装置は、ユーザフィードバックに基づいて、取得された前記複数のユーザのユーザデータをスクリーニングするスクリーニングモジュールをさらに含み、前記トレーニングモジュールがスクリーニングされた複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得し、前記ユーザフィードバックは、直接フィードバックと間接フィードバックを含む。
本開示の一例によれば、前記スクリーニングモジュールは、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴とに対して重み付けを行ってスコアを付け、異なるスコアを有し且つスクリーニングされた複数のユーザのユーザデータを取得する。
本開示の一例によれば、前記スクリーニングモジュールは、全てのユーザに対して同じ重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴に対して重み付けを行ってスコアを付け、スクリーニングされた後の複数のユーザのユーザデータを取得する。
本開示の一例によれば、前記スクリーニングモジュールは、異なるユーザに対して異なる重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴に対して重み付けを行ってスコアを付け、スクリーニングされた複数のユーザのユーザデータを取得する。
本開示の一例によれば、前記テキスト処理装置は、前記第1の抽出すべき要約テキストを取得するための第1の抽出すべき要約テキスト取得モジュールと、ユーザ行動情報を取得するためのユーザ行動情報取得モジュールと、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成するための処理モジュールとをさらに含む。
本開示の一例によれば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを削除することである場合、前記処理モジュールは、前記中間テキストにおける第1の特定のコンテンツを直接削除してターゲット要約テキストを生成し、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを変更することである場合、前記処理モジュールは、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、ユーザによって選択され、且つ前記ユーザによって選択された候補推薦コンテンツを用いて、前記第1の特定のコンテンツを置換してターゲット要約テキストを生成する。
本開示の一例によれば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加することである場合、前記処理モジュールは、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成するか、又は前記処理モジュールは、前記第2の特定のコンテンツをキーコンテンツとして、前記第1のモデルにより前記第1の抽出すべき要約テキストと前記キーコンテンツとの両方を処理して、ターゲット要約テキストを生成するか、又は前記処理モジュールは、前記第2の特定のコンテンツと前記中間テキストとの類似度又は情報量、及び前記中間テキストの長さのうちの一つ又は二つに基づいて、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的に追加して、ターゲット要約テキストを生成する。
本開示の一例によれば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに関連し且つ異なる第1の付加情報を取得し、前記中間テキストに追加してターゲット要約テキストを生成することである場合、前記処理モジュールは、前記第1の抽出すべき要約テキストに基づいて、一つの第2の抽出すべき要約テキストをユーザに提供し、前記ユーザによって所望の第2の抽出すべき要約テキストが選択された場合、前記処理モジュールは、第3の所定の規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストと前記第2の抽出すべき要約テキストを処理し、前記ターゲット要約テキストとして中間テキストと前記第1の付加情報を生成する。
本開示の一例によれば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第3の特定のコンテンツに関連する情報を取得することである場合、前記処理モジュールは、前記第3の特定のコンテンツに関連する情報を前記ユーザに提供し、前記第3の特定のコンテンツに関連する情報がユーザによって選択されるか、又は前記第3の特定のコンテンツを補完して、ターゲット要約テキストを生成する。
本開示の一例によれば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、前記処理モジュールは、前記ユーザ行動情報に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整し、ターゲット要約テキストを生成する。
本開示の一例によれば、前記テキスト処理装置は、ユーザの履歴情報を取得するためのユーザ履歴情報取得モジュールをさらに含み、前記処理モジュールは、さらに前記ユーザの履歴情報に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成する。
本開示の一例によれば、前記テキスト処理装置は、ユーザが当該テキスト処理装置を用いる場合に好み値をチェックし、ユーザが当該テキスト処理装置を用いる場合に好みテンプレートをチェックするか、又はユーザが当該テキスト処理装置を登録する場合に好み値又はテンプレートをチェックし、ユーザ個別情報テーブルを形成するためのユーザ好み設定モジュールをさらに含み、前記処理モジュールは、さらに前記ユーザ個別情報テーブルに基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、ターゲット要約テキストを生成する。
本開示の一態様によれば、テキスト処理方法を提供し、前記テキスト処理方法は、複数のユーザのユーザデータを取得することと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することとを含み、前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる。
本開示の一態様によれば、テキスト処理機器を提供し、前記機器は、プロセッサと、コンピュータ可読プログラム命令を記憶するメモリとを含み、前記コンピュータ可読プログラム命令が前記プロセッサによって作動される場合にテキスト処理方法が実行され、前記テキスト処理方法は、複数のユーザのユーザデータを取得することと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することとを含み、前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報とに基づいて、ターゲット要約テキストを生成するために用いられる。
本開示の一態様によれば、コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体を提供し、前記プログラムは、コンピュータにテキスト処理方法を実行させ、前記テキスト処理方法は、複数のユーザのユーザデータを取得することと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することとを含み、前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる。
本開示の実施例のテキスト処理装置及びテキスト処理方法によって、異なるモデルによってユーザの注目をシミュレートしてユーザのニーズにより合致する結果を取得することができる。
添付図面を結び付けながら、本開示の実施例をより詳細に説明することによって、本開示の上記及び他の目的、特徴、並びに利点は、より明らかになる。添付図面は、本開示の実施例を更に理解するために提供され、明細書の一部を構成し、本開示の実施例とともに本開示を説明するためのものであり、本開示に対する制限を構成するものではない。添付図面において、同一の参照符号は、通常、同一の部材又はステップを表す。
以下は、本開示の実施例における添付図面を参照しながら、本開示の実施例における技術案を明瞭且つ完全に記述する。明らかに、記述された実施例は、本開示の一部の実施例に過ぎず、全ての実施例ではない。本開示における実施例に基づいて、当業者が創造的な労働をせずに取得するその他の実施例は、いずれも本開示の保護範囲に含まれる。
本出願は、フローチャートを用いて本出願の実施例による方法のステップを説明する。なお、前又は後ろのステップは、必ずしも順序に従って正確に行われるとは限らない。逆に、様々なステップを逆の順序で、又は同時に処理してもよい。また、他の操作をこれらのプロセスに追加するか、又はこれらのプロセスからあるステップ又は複数のステップを除去してもよい。
本開示は、テキスト処理装置を提供し、それは、ユーザとのインタラクション(interaction)によって、ユーザが所望の要約テキストを取得することができ、それにより、異なるユーザに特定の要約テキストをカスタマイズする。本開示は、要約抽出を例として説明する。
まず、図1を参照して本開示の実施例を実現するためのテキスト処理装置1000を記述する。
図1に示すように、本開示の実施例によるテキスト処理装置1000は、第1の抽出すべき要約テキスト取得モジュール1001と、ユーザ行動情報取得モジュール1002と、処理モジュール1003とを含む。当業者であれば、これらのユニットモジュールは、ハードウェアのみによって、ソフトウェアのみによって、又はそれらの組み合わせによって、様々な方式で実現されてもよく、本開示は、それらのいずれにも限定されないことが理解される。例えば、中央処理ユニット(CPU)、テキストプロセッサ(GPU)、テンソルプロセッサ(TPU)、フィールド・プログラマブル・ゲート・アレイ(FPGA)又はデータ処理能力及び/又は命令実行能力を有する他の形式の処理ユニット及び対応するコンピュータ命令によってこれらのユニットを実現することができる。
例えば、第1の抽出すべき要約テキスト取得モジュール1001は、第1の抽出すべき要約テキストを取得するために用いることができる。
例えば、ユーザ行動情報取得モジュール1002は、ユーザ行動情報を取得するために用いることができる。
例えば、処理モジュール1003は、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成するために用いることができる。
例えば、当該第1の抽出すべき要約テキストは、要約を抽出するための原文情報であってもよく、中間テキストは、中間要約であってもよく、ユーザ行動情報は、要約における文、単語を削除するか、変更するか、増加するか、又は順序を調整する等、ユーザが所望する要約を生成するようにしてもよく、ここで制限しない。例えば、当該第1のモデルは、既存の要約抽出モデルであってもよく、それは、様々なニューラルネットワークモデル、例えば、コンボリューショナルニューラルネットワーク(CNN)(GoogLeNet、AlexNet、VGGネットワーク等を含む)、コンボリューショナルニューラルネットワークを有する領域(R-CNN)、領域提案ネットワーク(RPN)、リカレントニューラルネットワーク(Recurrent Neural Network、RNN)、スタックベースの深さニューラルネットワーク(S-DNN)、深層信念ネットワーク(DBN)、制約付ボルツマンマシン(RBM)、完全コンボリューションネットワーク、長期短期記憶(LSTM)ネットワークと分類ネットワークを含んでもよいがそれらに限らない。なお、一つのタスクを実行するニューラルネットワークモデルは、サブニューラルネットワークを含んでもよく、且つ当該サブニューラルネットワークは、ヘテロジーニアスニューラルネットワークを含んでもよく、且つヘテロジーニアスニューラルネットワークモデルで実現することができる。
以下では、添付の図2から図19を参照して本開示の実施例によるテキスト処理装置の各実施例を詳細に記述する。
第1の実施例
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを削除することである場合、前記処理モジュール1003は、前記中間テキストにおける第1の特定のコンテンツを直接削除してターゲット要約テキストを生成することができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを削除することである場合、前記処理モジュール1003は、前記中間テキストにおける第1の特定のコンテンツを直接削除してターゲット要約テキストを生成することができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを変更することである場合、前記処理モジュール1003は、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、ユーザによって選択され、且つ前記ユーザによって選択された候補推薦コンテンツを用いて、前記第1の特定のコンテンツを置換してターゲット要約テキストを生成することができる。
図2は、本開示の実施例による、処理モジュール1003によって第1の特定のコンテンツを置換する候補推薦コンテンツをユーザに提供して、ユーザによって選択される方法200のフローチャートを示す。図2に示すように、前記処理モジュール1003は、前記第1の特定のコンテンツのタイプを認識するステップ(S201)と、前記タイプに基づいて置換用推薦コンテンツソースから複数の候補推薦コンテンツを生成するステップ(S202)と、前記複数の候補推薦コンテンツを第1の所定の規則に従って順位付け(rank)し、最初のN(Nは正の整数である)個の候補推薦コンテンツを選択して、ユーザによって選択されるステップ(S203)とに基づいて、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、ユーザによって選択されることができる。
例えば、ステップS201に対して、第1の特定のコンテンツのタイプは、品詞と、実体(Entity)であるか否かと、文であるか否かと、のうちの一つ又は複数を含む。例えば、ステップS202に対して、前記置換用推薦コンテンツソースは、類義語辞書と、言語モデルと、知識ベースと、共参照解析Coreference Resolution)と、経路検索の他の候補と、文の順位付けとのうちの一つ又は複数を含んでもよい。
表1は、第1の特定のコンテンツのタイプに基づいて置換用推薦コンテンツソースから複数の候補推薦コンテンツを生成することを示す。
表1に示すように、例えば、類義語辞書は、複数の候補推薦コンテンツを、「実体」、「非実体名詞/代名詞」、「動詞/形容詞/副詞」、「文」に属しない第1の特定のコンテンツに提供することができる。言語モデルは、複数の候補推薦コンテンツを、「実体」、「非実体名詞/代名詞」、「動詞/形容詞/副詞」、「文」に属しない第1の特定のコンテンツに提供することもできる。知識ベースは、複数の候補推薦コンテンツを、「実体」に属し、且つ「非実体名詞/代名詞」、「動詞/形容詞/副詞」、「文」に属しない第1の特定のコンテンツに提供することができる。共参照解析は、複数の候補推薦コンテンツを、「実体」、「非実体名詞/代名詞」に属し、且つ「動詞/形容詞/副詞」、「文」に属しない第1の特定のコンテンツに提供することができる。経路検索(Beam Search)の他の候補は、複数の候補推薦コンテンツを、「実体」、「非実体名詞/代名詞」、「動詞/形容詞/副詞」、「文」に属する第1の特定のコンテンツに提供することができること等である。
なお、表1は、一例に過ぎず、さらに他の分類方式により第1の特定のコンテンツを複数のタイプに分類することができ、そして複数のタイプに基づいて他の適切なソースから複数の候補推薦コンテンツを生成することができ、ここで制限しない。
なお、本開示の共参照解析は、現在の自然言語処理分野における任意の通常又は改良の方法であり、経路検索の他の候補は、既存の最短経路検索アルゴリズムであってもよく、Dijkstraアルゴリズム、A*アルゴリズム、SPFAアルゴリズム、Bellman-Fordアルゴリズム、Floyd-Warshallアルゴリズム、Johnsonアルゴリズムを含むが、それらに限らず、ここで制限しない。
図3は、本開示の実施例による、処理モジュール1003によって第1の特定のコンテンツを置換する候補推薦コンテンツをユーザに提供して、ユーザによって選択される概略図を示す。
図3に示すように、ユーザが選定した第1の特定のコンテンツが「ザッカーバーグ(Zuckerberg)」である場合、処理モジュール1003は、まず「ザッカーバーグ」のタイプ(例えば、当該タイプは、「実体」、「名詞」、「文でない」)を認識し、そして当該タイプに基づいて類義語辞書、知識ベース、共参照解析等から複数の候補推薦コンテンツ(すなわち候補推薦コンテンツリスト)を生成し、次に、処理モジュール1003は、複数の候補推薦コンテンツを第1の所定の規則に従って順位付けし、最初のN個の(例えば、N=3)候補推薦コンテンツを選択して、ユーザに選択させる。
次に、ステップS203に対して、例えば、処理モジュール1003は、複数の候補推薦コンテンツの品詞と、複数の候補推薦コンテンツの元の単語情報被覆率と、複数の候補推薦コンテンツの付加情報包括度と、コンテキストの滑らかさと、ユーザ画像による好みと、ユーザ行動と、複数の候補推薦コンテンツの分野タイプとにおける一つ又は複数の特徴に基づいて、前記複数の候補推薦コンテンツに対してスコアを付け、各特徴別のスコアの加重和を取得し、且つ前記加重和に基づいて前記複数の候補推薦コンテンツを順位付けすることができる。
例えば、処理モジュール1003は、第2の所定の規則又は第1のニューラルネットワークによって、前記各特徴別のスコアの加重和を取得することができ、ここで、第2の所定の規則は、人的に設定される適切な規則であってもよく、例えば第2の所定の規則は、公式、統計モデル等の非ニューラルネットワーク規則であってもよく、ここで制限しない。第1のニューラルネットワークは、上記ニューラルネットワークのうちのいずれであってもよく、ここで制限しない。
例えば、各特徴別のスコアの加重和は、各特徴の基礎スコアと、前記ユーザ行動情報と第1の抽出すべき要約テキストに基づく付加スコアと、のうちの一方又は両方の加重和とを含む。
図4は、本開示の実施例による、処理モジュール1003によって前記各特徴の基礎スコアを取得する概略図を示す。
図4に示すように、候補推薦コンテンツリストにおける複数の候補推薦コンテンツに対してそれぞれ特徴抽出を行い、例えば品詞、複数の候補推薦コンテンツの元の単語情報被覆率(すなわち、候補推薦コンテンツが元の単語/第1の特定のコンテンツを被覆するパーセント)、複数の候補推薦コンテンツの付加情報包括度(すなわち、候補推薦コンテンツが元の単語/第1の特定のコンテンツ以外のコンテンツを含むパーセント)、コンテキストの滑らかさ等の特徴パーセントを取得し、そして特徴処理後に特徴パーセントをベクトル特徴に変換する。例えば、候補推薦コンテンツ「マーク・ザッカーバーグ」のベクトル特徴は、[0.92、1.00、0.10、0.93]であり、候補推薦コンテンツ「彼」のベクトル特徴は、[0.26、0.00、0.10、0.32]である。次に、処理モジュール1003は、当該ベクトル特徴に基づいて各候補推薦コンテンツの各特徴の基礎スコアの加重和を取得することができる。例えば、候補推薦コンテンツ「マーク・ザッカーバーグ」の基礎スコアの加重和は、0.68であり、候補推薦コンテンツ「彼」の基礎スコアの加重和は、0.13である。次に、処理モジュール1003は、基礎スコアの加重和に基づいて、例えば大きい順で複数の候補推薦コンテンツを順位付けし、必要に応じて最初のN個の候補推薦コンテンツを選択して、それら最初のN個の候補推薦コンテンツがユーザによって選択されることができる。
各特徴の基礎スコアは、全てのユーザに対して統一重みを用いてもよい。例えば、全てのユーザに対して同一のニューラルネットワーク又は同一の所定の規則で各特徴の基礎スコアを取得してもよい。
また、前記各特徴の基礎スコアは、全てのユーザに対して異なる重みを用いてもよい。例えば、まずユーザの好み等に基づいてユーザを分類し、そしてユーザの種類ごとに異なるニューラルネットワークをトレーニングして各特徴の基礎スコアを取得する。
例えば、付加スコアは、前記ユーザ行動情報に基づいて前記基礎スコアを直接変更して取得されてもよいか、又は第1の抽出すべき要約テキストに基づいて取得される付加特徴を前記基礎スコアに加えて取得されてもよい。
例えば、基礎スコア=a*W1+b*W2の場合、前記ユーザ行動情報に基づいて基礎スコアを直接変更して付加スコア=A*(a*W1+b*W2)を得ることができる。また、基礎スコア=a*W1+b*W2の場合、第1の抽出すべき要約テキストに基づいて取得される付加特徴(c*W3)を前記基礎スコアに加えることによって、付加スコア= a*W1+b*W2+c*W3を得ることができる。
一例として、ユーザ履歴選択に基づいて付加スコアを取得することができる。例えば、ユーザが知識ベースからの候補推薦コンテンツを前後又は連続する5回選択した場合、第1のモデルにより要約を生成するプロセスにおいて、知識ベースの重みに5を乗じることができる。
一例として、ニュースの要約抽出分野において、現在のニュースの状況に基づいて付加スコアを取得することができる。
例えば、ニュースタイプに基づいて、スタイルとコンテンツ等の面でタイプニーズに合致する単語に対して、重みを高くして付加スコアを取得する。一例として、ニュースタイプが政治である場合、「元米国大統領トランプ」の重みを高くして、「起業家トランプ」の重みを低くすることができる。
一例として、コンテキスト冗長情報に基づいて付加スコアを取得することができる。例えば、第1の抽出すべき要約テキストに含まれる「テンセント・ホールディングス創業者の馬化騰氏が今月、中国の独占禁止規制当局の当局者と会った」に対して、要約抽出プロセスにおいて、前に「テンセント総裁」が既に現れたため、「馬化騰」の候補推薦コンテンツに対して、「QQの父」の重みを「テンセント総裁」の重みよりも大きく設定することができる。
第2の実施例
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加して、ターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成することができる。例えば、第2の特定のコンテンツを中間テキストの最後の位置に直接追加してターゲット要約テキストを生成することができるか、又は第2の特定のコンテンツが第1の抽出すべき要約テキストにおける位置に基づいて、第2の特定のコンテンツを中間テキストの対応する位置に追加し、生成されたターゲット要約テキストの論理的関係を第1の抽出すべき要約テキストと一致させることができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加して、ターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成することができる。例えば、第2の特定のコンテンツを中間テキストの最後の位置に直接追加してターゲット要約テキストを生成することができるか、又は第2の特定のコンテンツが第1の抽出すべき要約テキストにおける位置に基づいて、第2の特定のコンテンツを中間テキストの対応する位置に追加し、生成されたターゲット要約テキストの論理的関係を第1の抽出すべき要約テキストと一致させることができる。
図5は、本開示の実施例による、処理モジュール1003によって前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成する概略図を示す。
図5に示すように、ユーザが原文における「オーストラリアのメディアによる以前のレポートによると、フェイスブックは、18日にオーストラリアのユーザがそのプラットフォームでニュースを共有、閲覧することを禁止し始めた」を出力された要約に追加することを所望する場合、処理モジュール1003は、「オーストラリアのメディアによる以前のレポートによると、フェイスブックは、18日にオーストラリアのユーザがそのプラットフォームでニュースを共有、閲覧することを禁止し始めた」を出力された要約に直接追加する(例えば要約出力(再生成後)に示すように)。
また、例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加して、ターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第2の特定のコンテンツをキーコンテンツとして、前記第1のモデルにより前記第1の抽出すべき要約テキストと前記キーコンテンツとの両方を処理して、ターゲット要約テキストを生成することができる。
図6は、本開示の実施例による、処理モジュール1003によって前記第2の特定のコンテンツをキーコンテンツとして前記ターゲット要約テキストを取得する概略図を示す。
図6に示すように、ユーザが原文における「オーストラリアのメディアによる以前のレポートによると、フェイスブックは、18日にオーストラリアのユーザがそのプラットフォームでニュースを共有、閲覧することを禁止し始めた」を出力された要約に追加することを所望する場合、処理モジュール1003は、「オーストラリアのメディアによる以前のレポートによると、フェイスブックは、18日にオーストラリアのユーザがそのプラットフォームでニュースを共有、閲覧することを禁止し始めた」をキーコンテンツとして、処理モジュール1003は、前記第1のモデルにより前記第1の抽出すべき要約テキストと当該キーコンテンツを処理して、ターゲット要約テキストを生成することができる。
ユーザが直接追加するか、又はキーコンテンツとして追加することを選択する場合、情報冗長が現れやすく、且つ要約の長さ要求を満たすことができない可能性があるため、処理モジュール1003によって第2の特定のコンテンツを適応的に追加することができる。
また、例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加して、ターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第2の特定のコンテンツと前記中間テキストとの類似度又は情報量、及び前記中間テキストの長さのうちの一つ又は二つに基づいて、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的に追加して、ターゲット要約テキストを生成することができる。
例えば、処理モジュールは、以下のステップに基づいて前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的且つ動的に追加して、ターゲット要約テキストを生成することができ、
1 中間テキストにおける文と、現在に添加追加する必要な文(第2の特定のコンテンツ )との類似度/情報量を比較し、
・ 中間テキストにおける全ての文は、いずれも現在の文と重複していない/重複情
報が極めて少ない→直接添加追加する。
・ 中間テキストに現在の文と重複する(部分的又はほぼ同じ)文がある場合、次の
選択肢があり、
a キーコンテンツとして直接生成する。
b 現在の文を原文に入れ、且つ冗長な文/文の部分をハイライトし、削除の
可否をユーザに問い合わせる。
c 部分的に重複する場合、現在の文と、重複する文とに対して重複する部分
を削除してつなぎ合わせる。
2 1で処理され排除された要約の長さを検査し、文を圧縮しても依然として長さ要求
を満たすことができない場合、以下の選択肢があり、
・ キーコンテンツとして直接生成するように変更する。
・ 文の重要度で順位付けし(規則又はニューラルネットワークモデルによって取得
される)、且つ最下位のいくつかの文をマーキングし(残りの文を要求に合致さ
せる)、削除の可否をユーザに問い合わせる。
1 中間テキストにおける文と、現在に添加追加する必要な文(第2の特定のコンテンツ )との類似度/情報量を比較し、
・ 中間テキストにおける全ての文は、いずれも現在の文と重複していない/重複情
報が極めて少ない→直接添加追加する。
・ 中間テキストに現在の文と重複する(部分的又はほぼ同じ)文がある場合、次の
選択肢があり、
a キーコンテンツとして直接生成する。
b 現在の文を原文に入れ、且つ冗長な文/文の部分をハイライトし、削除の
可否をユーザに問い合わせる。
c 部分的に重複する場合、現在の文と、重複する文とに対して重複する部分
を削除してつなぎ合わせる。
2 1で処理され排除された要約の長さを検査し、文を圧縮しても依然として長さ要求
を満たすことができない場合、以下の選択肢があり、
・ キーコンテンツとして直接生成するように変更する。
・ 文の重要度で順位付けし(規則又はニューラルネットワークモデルによって取得
される)、且つ最下位のいくつかの文をマーキングし(残りの文を要求に合致さ
せる)、削除の可否をユーザに問い合わせる。
なお、上記処理モジュール1003が前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的且つ動的に追加して、ターゲット要約テキストを生成する方法ステップは、これに限らず、さらに他の適切な方法を採用して第2の特定のコンテンツを追加してもよく、ここで制限しない。
第3の実施例
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストと関連し且つ異なる第1の付加情報を取得し、前記中間テキストに追加してターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第1の抽出すべき要約テキストに基づいて、一つ又は複数の第2の抽出すべき要約テキストをユーザに提供することができ、前記ユーザによって所望の第2の抽出すべき要約テキストが選択された場合、前記処理モジュール1003は、第3の所定の規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストと前記所望の第2の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストと関連し且つ異なる第1の付加情報を取得し、前記中間テキストに追加してターゲット要約テキストを生成することである場合、前記処理モジュール1003は、前記第1の抽出すべき要約テキストに基づいて、一つ又は複数の第2の抽出すべき要約テキストをユーザに提供することができ、前記ユーザによって所望の第2の抽出すべき要約テキストが選択された場合、前記処理モジュール1003は、第3の所定の規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストと前記所望の第2の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することができる。
例えば、処理モジュール1003は、前記第1の抽出すべき要約テキストに含まれるキー情報及びタイプに基づいて、前記第1の抽出すべき要約テキストと関連し且つ異なる一つ又は複数の第2の抽出すべき要約テキストを検索し、且つ前記一つ又は複数の第2の抽出すべき要約テキストに対して重複するものを除去してから順位付けを行い、最初のM個の第2の抽出すべき要約テキストをユーザに提供することができ、Mは正の整数である。
例えば、第2の抽出すべき要約テキストは、第1の抽出すべき要約テキストと関連し且つ異なるテキストであり、そうでない場合、抽出すべき要約テキストの冗長を引き起こし、一般的には、類似度が中間区間にある関連するテキストを選択して第2の抽出すべき要約テキストとすることができる。
例えば、前記処理モジュール1003は、前記第1の抽出すべき要約テキストとの類似度と、前記第1の抽出すべき要約テキストの被覆分野との違いと、前記第1の抽出すべき要約テキストとの時間差と、ユーザ画像による好みと、の第4の所定の規則のうちの一つ又は複数に基づいて、一つ又は複数の次元で前記第1の抽出すべき要約テキストと関連し且つ異なる一つ又は複数の第2の抽出すべき要約テキストを順位付けすることができる。
以下では、第4の所定の規則うちの一つ又は複数の規則に基づいて、一つ又は複数の次元で前記第1の抽出すべき要約テキストと関連し且つ異なる一つ又は複数の第2の抽出すべき要約テキストを順位付けすることを詳細に挙げ、
1 一つ又は複数の第2の抽出すべき要約テキストの全ての検索結果に対して、それを
第1の抽出すべき要約テキストとの類似度をマッチングし、類似度が中間区間(例
えば50%に近い)にある一つ又は複数の第2の抽出すべき要約テキストの順位が
高い。
2 一つ又は複数の第2の抽出すべき要約テキストと第1の抽出すべき要約テキストと
に対して同時に実体抜き取り、イベント抜き取りを行い、第1の抽出すべき要約テ
キストと比べて、実体の被覆率が高く、新規実体の出現が多く、且つイベント差異
が大きい一つ又は複数の第2の抽出すべき要約テキストの順位が高い。
3 時間に基づく:第1の抽出すべき要約テキストと一つ又は複数の第2の抽出すべき
要約テキストの抜き取り時間について、時間が近いほど順位が高い。
4 ユーザ画像に基づく:ユーザが履歴情報において掘削された好みを設定したことが
あれば、好みに基づいて一つ又は複数の第2の抽出すべき要約テキストの順位を調
整する。例えば、
・ ユーザが新華網からのニュースをよく選択する→新華網のニュースの順位を
上げる。
・ ユーザが科学技術系ニュースへの注目を設定したことがある→科学技術系に
分類されているか、テクノロジー系の実体を含むニュースの順位を上げる。
1 一つ又は複数の第2の抽出すべき要約テキストの全ての検索結果に対して、それを
第1の抽出すべき要約テキストとの類似度をマッチングし、類似度が中間区間(例
えば50%に近い)にある一つ又は複数の第2の抽出すべき要約テキストの順位が
高い。
2 一つ又は複数の第2の抽出すべき要約テキストと第1の抽出すべき要約テキストと
に対して同時に実体抜き取り、イベント抜き取りを行い、第1の抽出すべき要約テ
キストと比べて、実体の被覆率が高く、新規実体の出現が多く、且つイベント差異
が大きい一つ又は複数の第2の抽出すべき要約テキストの順位が高い。
3 時間に基づく:第1の抽出すべき要約テキストと一つ又は複数の第2の抽出すべき
要約テキストの抜き取り時間について、時間が近いほど順位が高い。
4 ユーザ画像に基づく:ユーザが履歴情報において掘削された好みを設定したことが
あれば、好みに基づいて一つ又は複数の第2の抽出すべき要約テキストの順位を調
整する。例えば、
・ ユーザが新華網からのニュースをよく選択する→新華網のニュースの順位を
上げる。
・ ユーザが科学技術系ニュースへの注目を設定したことがある→科学技術系に
分類されているか、テクノロジー系の実体を含むニュースの順位を上げる。
次に、処理モジュール1003は、前記第1の抽出すべき要約テキスト、前記第2の抽出すべき要約テキストの長さ、類似度、関連比率のうちの一つ又は複数に基づいて、第1のモデルにより前記所望の第2の抽出すべき要約テキストを処理して取得される前記第1の付加情報を前記中間テキストの特定の位置に置いてターゲット要約テキストを生成することができる。
以下の例のうちの一つ又は複数に従って、第1の付加情報を前記中間テキストの特定の位置に置いてターゲット要約テキストを生成することができ、
1 第1の抽出すべき要約テキスト(例えば、元のニュース)と第2の抽出すべき要約
テキスト(例えば、関連ニュース)との比率を確認し、
・ 規則設定、例えば、第1の抽出すべき要約テキストを優先する(第1の抽出すべ
き要約テキストの全ての情報を保持し、残りの長さの空間で第2の抽出すべき要
約テキストを追加する)。
・ ユーザ設定、例えば、ユーザがスライドバーによって第2の抽出すべき要約テキ
ストと第1の抽出すべき要約テキストとの長さ比率を制御することができる。
・ システムが自律的に判断し(このステップは、2と同時に行うことができる)、
例えば、まず第1のモデルにより各第2の抽出すべき要約テキストを処理して第
1の抽出すべき要約テキストと同じ長さの設定を有する要約を取得し、第1の抽
出すべき要約テキストと第2の抽出すべき要約テキストから取得される複数の要
約を纏めて文の重要度を順位付けし、ターゲット要約テキストとして最終的な長
さ要求に合致するP個の文をスクリーニングし、Pは正の整数である。
2 各第2の抽出すべき要約テキストと第1の抽出すべき要約テキストとを比較し、第
1の抽出すべき要約テキストと重複するか又は非常に類似する文を除去する。
3 関連比率(例えば長さ)に従って、各第2の抽出すべき要約テキストに対して要約
抽出を行って第1の付加情報を取得する。
4 関連比率に基づいて第2の抽出すべき要約テキストを第1の抽出すべき要約テキス
トの特定の位置に補充する。確認位置に関する:
・ 簡単な規則、例えば、第1の抽出すべき要約テキストの後ろに統一的に追加し、
表示順序で一つずつ追加する。
・ 時間順に順位付けし、例えば、各第2の抽出すべき要約テキストにおける時間を
抜き取り、各第2の抽出すべき要約テキストを古い順に羅列する。
・ 第1の抽出すべき要約テキストと位置比較を行い、例えば、第1の抽出すべき要
約テキストが現在の第2の抽出すべき要約テキストと重複する部分を見つける→
重複する部分と要約抜き取り文の位置関係を観察する→当該関係に基づいて最終
的位置を確認する。
・ 語義関係ツリーを構築し、例えば、要約抽出によって取得される全ての要約文に
対して、語義ロジックベースの関係ツリー(例えばRST方法を用いる)を構築
し、ルートノードから順位付けする。
・ ユーザ行動又は好みに基づいて、例えば、ユーザが最初に選択した第2の抽出す
べき要約テキストを最上位にする。
1 第1の抽出すべき要約テキスト(例えば、元のニュース)と第2の抽出すべき要約
テキスト(例えば、関連ニュース)との比率を確認し、
・ 規則設定、例えば、第1の抽出すべき要約テキストを優先する(第1の抽出すべ
き要約テキストの全ての情報を保持し、残りの長さの空間で第2の抽出すべき要
約テキストを追加する)。
・ ユーザ設定、例えば、ユーザがスライドバーによって第2の抽出すべき要約テキ
ストと第1の抽出すべき要約テキストとの長さ比率を制御することができる。
・ システムが自律的に判断し(このステップは、2と同時に行うことができる)、
例えば、まず第1のモデルにより各第2の抽出すべき要約テキストを処理して第
1の抽出すべき要約テキストと同じ長さの設定を有する要約を取得し、第1の抽
出すべき要約テキストと第2の抽出すべき要約テキストから取得される複数の要
約を纏めて文の重要度を順位付けし、ターゲット要約テキストとして最終的な長
さ要求に合致するP個の文をスクリーニングし、Pは正の整数である。
2 各第2の抽出すべき要約テキストと第1の抽出すべき要約テキストとを比較し、第
1の抽出すべき要約テキストと重複するか又は非常に類似する文を除去する。
3 関連比率(例えば長さ)に従って、各第2の抽出すべき要約テキストに対して要約
抽出を行って第1の付加情報を取得する。
4 関連比率に基づいて第2の抽出すべき要約テキストを第1の抽出すべき要約テキス
トの特定の位置に補充する。確認位置に関する:
・ 簡単な規則、例えば、第1の抽出すべき要約テキストの後ろに統一的に追加し、
表示順序で一つずつ追加する。
・ 時間順に順位付けし、例えば、各第2の抽出すべき要約テキストにおける時間を
抜き取り、各第2の抽出すべき要約テキストを古い順に羅列する。
・ 第1の抽出すべき要約テキストと位置比較を行い、例えば、第1の抽出すべき要
約テキストが現在の第2の抽出すべき要約テキストと重複する部分を見つける→
重複する部分と要約抜き取り文の位置関係を観察する→当該関係に基づいて最終
的位置を確認する。
・ 語義関係ツリーを構築し、例えば、要約抽出によって取得される全ての要約文に
対して、語義ロジックベースの関係ツリー(例えばRST方法を用いる)を構築
し、ルートノードから順位付けする。
・ ユーザ行動又は好みに基づいて、例えば、ユーザが最初に選択した第2の抽出す
べき要約テキストを最上位にする。
図7は、本開示の実施例による、処理モジュール1003によって前記中間テキストと関連し且つ異なる第1の付加情報を前記中間テキストに追加してターゲット要約テキストを生成する概略図を示す。
図7に示すように、処理モジュール1003は、元のニュースに含まれるキーワードに基づいて元のニュースと関連し且つ異なる一つ又は複数の関連ニュースを検索し、且つ順位付けモデルにより一つ又は複数の関連ニュースを順位付けし、最初のM(例えば、M=3)個の関連ニュースをユーザに提供して、ユーザによって選択させることができる。次に、ユーザによって選択される関連ニュースに対して、処理モジュール1003は、それを元のニュースと比較し、元のニュースと重複するか又は非常に類似する文を除去し、且つ冗長を除去した関連ニュースを要約抽出した後に生成された関連ニュース要約を、元のニュースを要約抽出した後に出力された元のニュース要約の特定の位置に補充し、ターゲット要約を生成する。
図8は、本開示の別の実施例による、処理モジュール1003によって前記中間テキストと関連し且つ異なる第1の付加情報を前記中間テキストに追加してターゲット要約テキストを生成する概略図を示す。
図8に示すように、ユーザが提供される関連ニュースを選択した後(例えばマウスの矢印に示すように)、処理モジュール1003は、要約抽出モデルにより関連ニュースを処理して取得される第1の付加情報を前記中間テキストの特定の位置(図8に示すように、ターゲット要約テキストにおける下線部分は、関連ニュースから生成された要約コンテンツである)に置いてターゲット要約テキストを生成することができる。
第4の実施例
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第3の特定のコンテンツに関連する情報を取得することである場合、処理モジュール1003は、前記第3の特定のコンテンツに関連する情報を前記ユーザに提供し、前記第3の特定のコンテンツに関連する情報をユーザによって選択されるか、又は前記第3の特定のコンテンツを補完して、ターゲット要約テキストを生成することができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第3の特定のコンテンツに関連する情報を取得することである場合、処理モジュール1003は、前記第3の特定のコンテンツに関連する情報を前記ユーザに提供し、前記第3の特定のコンテンツに関連する情報をユーザによって選択されるか、又は前記第3の特定のコンテンツを補完して、ターゲット要約テキストを生成することができる。
図9a-9bは、本開示の実施例による、ユーザによって関連情報を選択するか又は特定のコンテンツを補完する概略図を示す。
図9aに示すように、ユーザの入力カーソル(cursor)がある位置に一定時間以上留まる場合、処理モジュール1003は、当該位置の前/後のキーワード(すなわち第3の特定のコンテンツ、例えば図9aにおける「トランプ」)を取得し、そして例えば知識ベース/ネットワークから当該キーワードに対応する実体の関連情報(例えば図9aにおける「元米国大統領」、「第45代米国統領」、「有名な起業家」、「共和党候補者」)を検索し、ユーザに学習させるか、又は当該関連情報で当該キーワードを置換することを選択させることができる。
図9bに示すように、ユーザによって入力される(例えば図9bにおいて入力される「米国」)場合、処理モジュール1003は、当該位置前/後のキーワード(すなわち第3の特定のコンテンツ、例えば図9bにおける「トランプ」)及びユーザの入力(例えば図9bにおいて入力される「米国」)を取得し、例えば知識ベース/ネットワークから当該キーワードに対応する実体の関連情報(例えば図9bにおける「元米国大統領」、「第45代米国統領」)を検索し、ユーザに学習させるか、又は当該キーワードを補完させることができる。
例えば、前記処理モジュール1003は、第5の所定の規則により前記第3の特定のコンテンツを処理し、前記第3の特定のコンテンツの一つ又は複数の候補コンテンツを取得し、且つ前記第3の特定のコンテンツの一つ又は複数の候補コンテンツにより前記第3の特定のコンテンツを補完することができる。例えば、第5の所定の規則は、共参照解析等の技術であってもよく、ここで制限しない。
例えば、前記処理モジュール1003は、前記第3の特定のコンテンツに関連する情報のコンテンツ、前記第3の特定のコンテンツに関連する情報のタイプ、前記第1の抽出すべき要約テキストの分野及びその加重和のうちの一つ又は複数に基づいて、知識ベースから検索される前記第3の特定のコンテンツに関連する一つ又は複数の情報を順位付けし、且つ前記第3の特定のコンテンツに関連する情報を前記ユーザに表示することができる。
例えば、以下の規則によって、前記第3の特定のコンテンツ(以下では、キーワードと呼ばれる)に関連する情報をユーザに表示することができ、
1. キーワード認識:カーソルの前後は、近接原則によって(一つ又は複数の)実体
又は名詞を認識する。
2. キーワードの選択と補完:
・ 補完:(1)選択される実体又は名詞を第1の抽出すべき要約テキスト(元のニ
ュース)内に共参照解析し、候補詞を選択して情報補完を行う。(2)ニュース
分野タイプを追加する。
・ 選択:実体系を優先し、情報量が十分でないものを優先する。
3. 知識ベース、類義語辞書、言語モデル等で検索する。
4. 検索結果を順位付けして表示し、
・ 原則:ユーザが入力した単語付きのエントリを優先し、当該実体の前後に含まれ
る情報を含まないものを優先し、当該ニュースタイプに合致するものを優先する
(例えば政治系ニュースは、政治身分に対応する)。
・ 入力:候補詞、キーワード、ユーザ入力(動的に変化する可能性がある)、ニュ
ース分野タイプ、候補詞分野タイプ。
・ 方法:各特徴別のスコアの加重和(人為的設定又はニューラルネットワークによ
って取得されることができる):
a) 基礎スコア(全てのユーザに対して変更せず/異なるユーザに対して異
なる重み)、図4に示すように。
b) ユーザと現在のニュースの付加スコアに基づいて、例えば、
・ ユーザ履歴選択に基づいて、例えば、ユーザが最近複数回に選択した単
語の重みを高くする。
・ ユーザの動作又は入力変化に基づいて、例えば、ユーザが削除した単語
の重みを低くする。
・ 現在のニュースの状況に基づく、
(1) 現在のニュースタイプ(現在のニュースと同種の候補詞の重み
を高くする)、
例:1.ニュースタイプが政治であり、「米国大統領」>「起業
家」。
(2) コンテキスト言及(冗長情報を削除する)、
例:「テンセント・ホールディングス創業者の馬化騰氏が今月、
中国の独占禁止規制当局の当局者と会った」、「馬化騰」の推薦
語において「QQの父」>「テンセント総裁」(前に類義語があ
るため)。
1. キーワード認識:カーソルの前後は、近接原則によって(一つ又は複数の)実体
又は名詞を認識する。
2. キーワードの選択と補完:
・ 補完:(1)選択される実体又は名詞を第1の抽出すべき要約テキスト(元のニ
ュース)内に共参照解析し、候補詞を選択して情報補完を行う。(2)ニュース
分野タイプを追加する。
・ 選択:実体系を優先し、情報量が十分でないものを優先する。
3. 知識ベース、類義語辞書、言語モデル等で検索する。
4. 検索結果を順位付けして表示し、
・ 原則:ユーザが入力した単語付きのエントリを優先し、当該実体の前後に含まれ
る情報を含まないものを優先し、当該ニュースタイプに合致するものを優先する
(例えば政治系ニュースは、政治身分に対応する)。
・ 入力:候補詞、キーワード、ユーザ入力(動的に変化する可能性がある)、ニュ
ース分野タイプ、候補詞分野タイプ。
・ 方法:各特徴別のスコアの加重和(人為的設定又はニューラルネットワークによ
って取得されることができる):
a) 基礎スコア(全てのユーザに対して変更せず/異なるユーザに対して異
なる重み)、図4に示すように。
b) ユーザと現在のニュースの付加スコアに基づいて、例えば、
・ ユーザ履歴選択に基づいて、例えば、ユーザが最近複数回に選択した単
語の重みを高くする。
・ ユーザの動作又は入力変化に基づいて、例えば、ユーザが削除した単語
の重みを低くする。
・ 現在のニュースの状況に基づく、
(1) 現在のニュースタイプ(現在のニュースと同種の候補詞の重み
を高くする)、
例:1.ニュースタイプが政治であり、「米国大統領」>「起業
家」。
(2) コンテキスト言及(冗長情報を削除する)、
例:「テンセント・ホールディングス創業者の馬化騰氏が今月、
中国の独占禁止規制当局の当局者と会った」、「馬化騰」の推薦
語において「QQの父」>「テンセント総裁」(前に類義語があ
るため)。
第5の実施例
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、前記処理モジュール1003は、直接前記ユーザ行動情報に基づいて前記第1の特定文の順序を調整することができる。
例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、前記処理モジュール1003は、直接前記ユーザ行動情報に基づいて前記第1の特定文の順序を調整することができる。
単一の文のみ調整すれば文の論理的関係の乱れを引き起こしやすいため、また、例えば、前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、前記処理モジュール1003は、前記ユーザ行動情報に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整することができる。
例えば、前記処理モジュール1003は、前記第1の特定文及び前記第1の特定文に関連する文の構造図を構築し、且つ前記構造図に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整することができる。
図10は、本開示の実施例による、文の順序を調整してターゲット要約テキストを生成する概略図を示す。図10に示すように、例えば、ユーザが原文における4番目の文を選択した場合、まず原文における4番目の文と関係が深い(緊密度が比較的に高い)関連文を抽出して関連文の図(図10における3→4→5)を構築し、そしてユーザが原文における4番目の文を移動したい位置に基づいて、移動した位置の前後の文が構築された関連文の図にあるか否かを判断する。一例として、ユーザが4番目の文を1と2との間に移動したい場合、1、2が構築された関連文の図にないために、文の論理的関係及び滑らかさを確保するためには、文図における全ての文3、4、5をいずれも1と2との間に移動することができる(同意するか否かをこの前にユーザに問い合わせることができる)。別の例として、ユーザが4番目の文を5と6との間に移動したい場合、5が構築された関連文の図にあるため、4番目の文を5と6との間に直接移動することができる。
なお、ニューラルネットワーク又は既存規則(例えば同じ実体、位置近接、接続詞関係等を有する)によって関連文の緊密度を判断し、そして例えば文の間の関係タイプ、位置関係等を計算することによって関連文で関連文の図を構築することができる。
図11は、本開示の実施例による、文の順序を調整してターゲット要約テキストを生成する別の概略図を示す。図11に示すように、ユーザが下線部分を選択していないが、太字部分(ユーザによって選択される部分)に関連するため、一緒に調整する。
第6の実施例
例えば、前記テキスト処理装置は、ユーザの履歴情報を取得するためのユーザ履歴情報取得モジュールをさらに含んでもよい。例えば、ユーザ履歴情報取得モジュールは、取得されるユーザ履歴情報に対して整理と掘削を行い、当該特定のユーザに関する情報規則を纏めることができる。次に、処理モジュール1003は、さらに前記ユーザの履歴情報/情報規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することができる。
例えば、前記テキスト処理装置は、ユーザの履歴情報を取得するためのユーザ履歴情報取得モジュールをさらに含んでもよい。例えば、ユーザ履歴情報取得モジュールは、取得されるユーザ履歴情報に対して整理と掘削を行い、当該特定のユーザに関する情報規則を纏めることができる。次に、処理モジュール1003は、さらに前記ユーザの履歴情報/情報規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することができる。
ユーザの履歴情報に基づいて、出力されるターゲット要約テキストを調整することによって、出力されるターゲット要約をよりユーザのニーズに合致させることができる。
例えば、ユーザ履歴情報取得モジュールは、ユーザの履歴入力と情報を記録して改善し、ユーザ履歴テーブルを形成し、例えば、
● ユーザ入力における各実体の出現頻度(ある実体がユーザ入力に頻繁に出現する
場合、ユーザの注目度が高いことを意味する)、
● ユーザの特定の行動の出現頻度、例えば「具体的な値付きの文を頻繁に削除する
」、「原文における最後の文を頻繁に追加する」等である。
● ユーザ入力における各実体の出現頻度(ある実体がユーザ入力に頻繁に出現する
場合、ユーザの注目度が高いことを意味する)、
● ユーザの特定の行動の出現頻度、例えば「具体的な値付きの文を頻繁に削除する
」、「原文における最後の文を頻繁に追加する」等である。
次に、処理モジュール1003は、所定の周期に基づいてユーザ履歴テーブルをリアルタイムに更新し、例えば、ユーザの特定の行動の出現頻度が所定の閾値を超えるか、又は実体の出現頻度が所定の閾値を超える場合、当該ユーザの特定の行動又は実体をユーザ履歴テーブルに更新することができる。
そして、ユーザの新規入力に対して、処理モジュール1003は、それに対応するユーザ履歴テーブルで、第1のモデルにより前記第1の抽出すべき要約テキストを処理し、ユーザの履歴情報に合致する前記ターゲット要約テキストを生成することができる。
一例において、経路検索によってターゲット要約テキストを出力する期間において、経路検索にユーザ履歴情報重みを付与し、処理モジュールは、第1の抽出すべき要約テキストを処理する場合にユーザ履歴情報を考慮することができる。
図12は、本開示の実施例による、ユーザの履歴情報に基づいてターゲット要約テキストを生成する概略図を示す。図12に示すように、取得されるユーザの履歴情報において、実体「ファーウェイ」の出現頻度が比較的に高いため、処理モジュール1003は、要約抽出を行う場合に「ファーウェイ」の出現頻度を高め、出力されたターゲット要約がユーザの所望により合致することができる。
第7の実施例
一例において、前記テキスト処理装置は、ユーザによって当該テキスト処理装置を用いる場合に選択された好みオプション、又はユーザによって当該テキスト処理装置を登録する場合に選択された好みオプションで、ユーザ個別情報テーブルを形成するためのユーザ好み設定モジュールをさらに含んでもよく、前記処理モジュールは、さらに前記ユーザ個別情報テーブルに基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、ターゲット要約テキストを生成する。
一例において、前記テキスト処理装置は、ユーザによって当該テキスト処理装置を用いる場合に選択された好みオプション、又はユーザによって当該テキスト処理装置を登録する場合に選択された好みオプションで、ユーザ個別情報テーブルを形成するためのユーザ好み設定モジュールをさらに含んでもよく、前記処理モジュールは、さらに前記ユーザ個別情報テーブルに基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、ターゲット要約テキストを生成する。
例えば、ユーザは、テキスト処理装置を使用するか又は登録する場合に、チェックしたり又は質問に答えたりする等の方式で好みオプションを選択することができる。図13-15は、本開示の実施例による、ユーザが好みオプションを選択する概略図を示す。
図13は、本開示の実施例による、ユーザが当該テキスト処理装置を用いる時に好み値を選択する概略図を示す。図13に示すように、ユーザが「好みの具体的な値」を選択した場合、値付きの関連文の重みを高くし、要約出力において相対的に多くの値付きの関連文を出力することができる。
図14は、本開示の実施例による、ユーザが当該テキスト処理装置を用いる時に好みテンプレートを選択する概略図を示す。図14に示すように、好みテンプレート(図14に示されるデータ型、児童読書型)は、複数の面の変化を含んでもよい。例えば、ユーザが「データ型」を選択した場合、値付きの関連文の重みを高くすることができ、ユーザが「児童読書型」を選択した場合、具体的なデータ、科学技術の詳細に注目せず、長文を無視したり、又は長文を短文に分割したり、小学校レベルの辞書にない単語を削除したり、又は読書スタイルを正式にわかりにくいものから分かりやすいものに変更したりすることができる。
図15は、本開示の実施例による、ユーザが当該テキスト処理装置を登録する場合に好み値又はテンプレートを選択する概略図を示す。図15に示すように、登録段階において、一つ又は複数のユーザ好み情報が含まれる好み設定テーブルをユーザに提示することができる。ユーザが当該テーブルに記入した後、処理モジュールは、要約抽出を行う場合に参照するためのユーザ個別情報テーブルを生成することができる。
第8の実施例
例えば、処理モジュール1003は、さらに上記方式に基づいてユーザ個別情報テーブルを作成することができる。図16は、本開示の実施例による、ユーザ個別情報テーブルを作成する概略図を示す。
例えば、処理モジュール1003は、さらに上記方式に基づいてユーザ個別情報テーブルを作成することができる。図16は、本開示の実施例による、ユーザ個別情報テーブルを作成する概略図を示す。
次に、前記テキスト処理装置は、表示モジュールをさらに含んでもよく、ユーザ行動情報に基づいて取得されるターゲット要約テキスト、前記ユーザの履歴情報に基づいて取得されるターゲット要約テキスト及びユーザ嗜好に基づいて取得されるターゲット要約テキストの一つ又は複数をユーザに表示し、ユーザによって選択され、ユーザは、履歴情報、好み設定に基づいて出力されるターゲット要約テキストを柔軟で直感的に見ることができる。
図17は、本開示の実施例による、複数の要約出力をユーザに表示する概略図を示す。
さらに、ユーザに表示される複数のターゲット要約テキストに対して、重複するものを除去することもできる。例えば、生成された複数のターゲット要約テキストのそれぞれに対して、他のターゲット要約テキストとの一致度をそれぞれ比較し、且つ一致度が比較的に高い(例えば、90%以上)二つのターゲット要約テキストのうちの一つのターゲット要約テキストを削除する。例えば、既存のモデルにより異なるターゲット要約テキストの一致度/類似度を計算することができ、ここで制限しない。
また、ユーザが表示する複数のターゲット要約テキストを順位付けした後にユーザに表示することもできる。一例として、生成されたターゲット要約テキストの文の滑らかさ、ユーザ履歴選択(例えば、各ソースの要約を選択する頻度)に基づいてターゲット要約テキストを順位付けすることができる。別の例として、複数のターゲット要約テキストをスコア付けすることによって、ターゲット要約テキストを順位付けすることができる。当該スコア付け方法は、上記図4に記述されているスコア付け方法と類似し、ここで制限しない。
例えば、複数のターゲット要約テキストに対するスコア付けは、全てのユーザに対して統一重みを用いてもよい。例えば、全てのユーザに対して同一のニューラルネットワーク又は同一の所定の規則(例えば、ユーザ履歴情報に基づく特徴と要約自体特徴との重みを1:1に設定する)で各特徴のスコアを取得する。
また、複数のターゲット要約テキストに対するスコア付けは、全てのユーザに対して異なる重みを用いてもよい。例えば、まずユーザ好み等に基づいてユーザを分類し、そしてユーザの種類ごとに異なるニューラルネットワークをトレーニングするか、又は異なる規則で各特徴のスコアを取得する。
第9の実施例
例えば、当該テキスト処理装置は、複数のユーザのユーザデータを取得するためのユーザデータ取得モジュールと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得するためのトレーニングモジュールとをさらに含んでもよい。
例えば、当該テキスト処理装置は、複数のユーザのユーザデータを取得するためのユーザデータ取得モジュールと、前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得するためのトレーニングモジュールとをさらに含んでもよい。
異なるカテゴリのユーザの注目点は、異なる可能性があるため、異なるモデルによってユーザ注目をシミュレートしてユーザニーズにより合致する結果を取得することができる。本開示は、複数のユーザのユーザデータを用いて第1のモデルをトレーニングすれば、異なる行動に対するか、又は複数のユーザのうちの各ユーザに対するターゲットモデルを取得することができる。
一例として、ユーザデータ取得モジュールは、第1の所定の規則又はニューラルネットワーク分類器等に基づいて前記複数のユーザのユーザデータを複数のデータカテゴリに分類することができ、前記トレーニングモジュールは、前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングし、前記複数のデータカテゴリに対するターゲットモデルを取得し、前記第1の所定の規則は、ユーザ行動に関連されている。例えば、ユーザ行動は、好みの言語タイプ、好みの長文と短文のタイプ、好みの要約の長さ等を表すことができる。
例えば、モデルトレーニング段階において各ユーザの行動、入力特徴等を收集し、そしてユーザ行動に関連されている第1の所定の規則又はニューラルネットワーク分類器等に基づいて複数のユーザのユーザデータを複数のデータカテゴリに分類することができる。例えば第1の所定の規則は、クラスタリング規則又は回帰規則であってもよく、他の適切な方法であってもよく、ここで制限しない。
次に、異なるデータカテゴリに基づいて、第1のモデル(共通モデルと呼ばれてもよい)を基礎として、小さなモデルをオンラインで学習し(例えば第1のモデルの上に、各データカテゴリに対するパラメータが異なる層を追加する)、複数のデータカテゴリに対するターゲットモデルを生成することができる。
図18は、本開示の実施例による、複数のデータカテゴリに対するターゲットモデルを取得する概略図を示す。
図18に示すように、モデルトレーニング段階において各ユーザの行動、入力特徴、選択される結果、ユーザのフィードバック等を收集し、そして例えばクラスタリング規則、回帰規則、サンプルフィルタ等に基づいて複数のユーザのユーザデータを複数のデータカテゴリに分類することができる。次に、異なるデータカテゴリに基づいて、共通モデルを基礎として、小さなモデルをオンラインで学習し(例えば共通モデルの上に、各データカテゴリに対するパラメータが異なる層を追加する)、複数のデータカテゴリに対する専用モデル(図18に示されるカテゴリ1専用モデル、カテゴリ2専用モデル、カテゴリ3専用モデル)を生成し、それにより、トレーニングされた共通モデルを複数のデータカテゴリに対するターゲットモデルとすることができる。
次に、ユーザは、当該共用モデルを再度使用する場合、ユーザの行動、入力特徴、選択結果、ユーザのフィードバック/設定等に基づいて、ターゲットモデルに含まれる異なる専用モデルを用いてユーザが所望の要約を取得することができる。
別の例として、トレーニングモジュールは、さらに前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、前記複数のユーザのうちの各ユーザに対するターゲットモデルを取得することができる。例えば、複数のユーザのユーザデータは、所定の期間のユーザデータを表すことができる。
図19は、本開示の実施例による、複数のユーザのうちの各ユーザのターゲットモデルを取得する概略図を示す。
図19に示すように、所定の期間に各ユーザのユーザデータを收集し、そして例えばユーザ認識モジュール等に基づいて複数のユーザのユーザデータをユーザごとに複数のデータカテゴリに分類することができる。次に、異なるデータカテゴリに基づいて、共通モデルを基礎として、小さなモデルをオンラインで学習し(例えば共通モデルの上に、各データカテゴリに対するパラメータが異なる層を追加する)、異なるユーザに対する専用モデル(図19に示されるカテゴリ1専用モデル、カテゴリ2専用モデル、カテゴリ3専用モデル)を生成し、それにより、トレーニングされた共通モデルを複数の異なるユーザに対するターゲットモデルとすることができる。
また、一般的には、ユーザデータとユーザ出力自体のみに基づいて、言語モデル等によりユーザデータをスクリーニングし、これで取得されたユーザデータを用いて第1のモデルをトレーニングして取得されたターゲットモデルは、理想的でない可能性がある。本開示は、出力されたターゲット要約テキストに対するユーザのフィードバックに基づいて、ユーザデータをスクリーニングし、ユーザの所望に合致するユーザデータを取得する。
例えば、図19に示すように、当該テキスト処理装置は、ユーザフィードバックに基づいて、取得された前記複数のユーザのユーザデータをスクリーニングするスクリーニングモジュールをさらに含み、前記トレーニングモジュールがスクリーニングされた複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得してもよい。例えば、ユーザフィードバックは、生成されたターゲット要約テキストに対するユーザの直接フィードバックと間接フィードバックを含んでもよい。
例えば、スクリーニングモジュールは、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴に対して重み付けを行ってスコアを付け、異なるスコアを有し且つスクリーニングされた複数のユーザのユーザデータを取得することができる。次に、トレーニングモジュールは、スコアが比較的に高い複数のユーザデータを選択して第1のモデルをトレーニングすることができる。
例えば、スクリーニングモジュールは、全てのユーザに対して同じ重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴に対して重み付けを行ってスコアを付け、スクリーニングされた複数のユーザのユーザデータを取得することができる。
例えば、スクリーニングモジュールは、異なるユーザに対して異なる重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴に対して重み付けを行ってスコアを付け、スクリーニングされた複数のユーザのユーザデータを取得することができる。
例えば、スクリーニングモジュールは、以下の方式で、ユーザフィードバックに基づいて、取得される複数のユーザのユーザデータをスクリーニングすることができ、
・ ユーザフィードバックの特徴タイプ:
1 行動/間接フィードバック(暗黙的):滞在時間/コピーするか否か/複数
回に変更するか否か、
2 直接フィードバック:例えば、ユーザが直接満足度(不満、やや良好、非常
に満足)を与えるなど。
・ スクリーニング方法:
1 ユーザの直接/間接フィードバックを收集し、関連する規則又はモデル等に
基づいてそれを関連特徴に転換し、且つ当該関連特徴によりユーザデータを
順位付けしてスクリーニングする。例えば、
・ ユーザの直接フィードバックを、例えば満足:1、比較的満足:0.
8等のような関連スコアに転換する。
・ ユーザが要約をコピーする速度を、速度がx秒であれば、スコアが1
/xであるような関連速度に転換する。
2 ユーザフィードバックに関連する特徴とユーザデータに含まれる要約の特徴
に対して重み付けを行ってスコアを付け(例えば、図4に記載のスコア付け
方法)、異なるスコアを有し且つスクリーニングされた複数のユーザデータ
を取得する。例えば、
・ 全てのユーザに対して同じ重みを用いて、例えばニューラルネットワ
ークをトレーニングするか、又は人為的規則を応用する(例えば直接
フィードバックの重みを1、他の重みを0に設定し、直接フィードバ
ックがなければ、特定の重み、例えば暗黙的フィードバックと要約自
体特徴1:1を用いる)。
・ 異なるユーザに対して異なる重みを用いて、例えばユーザを分類し、
各種のユーザに対して異なるニューラルネットワークをトレーニング
し又は異なる規則を応用する。
・ ユーザフィードバックの特徴タイプ:
1 行動/間接フィードバック(暗黙的):滞在時間/コピーするか否か/複数
回に変更するか否か、
2 直接フィードバック:例えば、ユーザが直接満足度(不満、やや良好、非常
に満足)を与えるなど。
・ スクリーニング方法:
1 ユーザの直接/間接フィードバックを收集し、関連する規則又はモデル等に
基づいてそれを関連特徴に転換し、且つ当該関連特徴によりユーザデータを
順位付けしてスクリーニングする。例えば、
・ ユーザの直接フィードバックを、例えば満足:1、比較的満足:0.
8等のような関連スコアに転換する。
・ ユーザが要約をコピーする速度を、速度がx秒であれば、スコアが1
/xであるような関連速度に転換する。
2 ユーザフィードバックに関連する特徴とユーザデータに含まれる要約の特徴
に対して重み付けを行ってスコアを付け(例えば、図4に記載のスコア付け
方法)、異なるスコアを有し且つスクリーニングされた複数のユーザデータ
を取得する。例えば、
・ 全てのユーザに対して同じ重みを用いて、例えばニューラルネットワ
ークをトレーニングするか、又は人為的規則を応用する(例えば直接
フィードバックの重みを1、他の重みを0に設定し、直接フィードバ
ックがなければ、特定の重み、例えば暗黙的フィードバックと要約自
体特徴1:1を用いる)。
・ 異なるユーザに対して異なる重みを用いて、例えばユーザを分類し、
各種のユーザに対して異なるニューラルネットワークをトレーニング
し又は異なる規則を応用する。
以上では、図2-図19によって本開示の実施例によるテキスト処理装置の各実施例を記述する。以下では、表2を参照してテキスト処理装置の各実施例の機能を簡単に記述する。
本開示の実施例のテキスト処理装置によって、ユーザとのインタラクション又はユーザ設定によって、ユーザが所望するターゲット要約を取得することができる。
以下では、図20を参照して本開示の実施例によるテキスト処理方法100を記述する。
図20は、本開示の実施例によるテキスト処理方法100のフローチャートを示す。当該方法は、コンピュータ等で自動的に完了されることができる。例えば、当該方法は、要約テキストを取得するために用いることができる。例えば、当該方法は、ソフトウェア、ハードウェア、ファームウェア又はその任意の組み合わせの方式で実現され、例えば携帯電話、タブレットパソコン、ノートパソコン、デスクトップパソコン、ネットワークサーバ等の機器におけるプロセッサによってロードされて実行されることができる。
図20に示すように、当該テキスト処理方法100は、
第1の抽出すべき要約テキストを取得するステップS101と、
ユーザ行動情報を取得するステップS102と、
第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成するステップS103とを含む。
第1の抽出すべき要約テキストを取得するステップS101と、
ユーザ行動情報を取得するステップS102と、
第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成するステップS103とを含む。
例えば、ステップS102において、ユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを削除することである場合、ステップS103は、前記中間テキストにおける第1の特定のコンテンツを削除してターゲット要約テキストを生成することができる。なお、ステップS101及びS102は、並列処理されてもよく(例えばS101及びS102を同時に処理する)、直列処理されてもよく(例えばS101を処理してからS102を処理するか、又はS102を処理してからS101を処理する)、ここで制限しない。
例えば、ステップS102において、ユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを変更することである場合、ステップS103は、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、ユーザによって選択され、且つ前記ユーザによって選択された候補推薦コンテンツを用いて、前記第1の特定のコンテンツを置換してターゲット要約テキストを生成することができる。
例えば、ステップS103は、前記第1の特定のコンテンツのタイプを認識するステップと、前記第1の特定のコンテンツのタイプに基づいて置換用推薦コンテンツソースから複数の候補推薦コンテンツを生成するステップと、前記複数の候補推薦コンテンツを第1の所定の規則に従って順位付けし、最初のN(Nは正の整数である)個の候補推薦コンテンツを選択して、ユーザに選択させるステップとに基づいて、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、候補推薦コンテンツがユーザによって選択されることができる。
例えば、ステップS103は、複数の候補推薦コンテンツの品詞と、複数の候補推薦コンテンツの元の単語情報被覆率と、複数の候補推薦コンテンツの付加情報包括度と、コンテキストの滑らかさと、ユーザ画像による好みと、ユーザ行動と、複数の候補推薦コンテンツの分野タイプとにおける一つ又は複数の特徴に基づいて、前記複数の候補推薦コンテンツに対してスコアを付け、各特徴別のスコアの加重和を取得し、且つ前記加重和に基づいて前記複数の候補推薦コンテンツを順位付けすることができる。
例えば、ステップS103は、第2の所定の規則又は第1のニューラルネットワークによって、前記各特徴別のスコアの加重和を取得することができる。
例えば、各特徴別のスコアの加重和は、前記各特徴の基礎スコアと、前記ユーザ行動情報と第1の抽出すべき要約テキストに基づく付加スコアと、のうちの一方又は両方の加重和とを含むことができる。
例えば、前記各特徴の基礎スコアは、全てのユーザに対して統一重みを用いてもよい。
例えば、前記各特徴の基礎スコアは、全てのユーザに対して異なる重みを用いてもよい。
例えば、前記付加スコアは、前記ユーザ行動情報に基づいて前記基礎スコアを直接変更して取得されてもよいか、又は第1の抽出すべき要約テキストに基づいて取得される付加特徴を前記基礎スコアに加えて取得されてもよい。
例えば、前記置換用推薦コンテンツソースは、類義語辞書と、言語モデルと、知識ベースと、共参照解析と、経路検索の他の候補と、文の順位付けとのうちの一つ又は複数を含んでもよい。
例えば、前記第1の特定のコンテンツのタイプは、品詞と、実体であるか否かと、文であるか否かと、のうちの一つ又は複数を含む。
例えば、ユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加することである場合、ステップS103は、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成することができ、又はステップS103は、前記第2の特定のコンテンツをキーコンテンツとすることができ、ステップS103は、前記第1のモデルにより前記第1の抽出すべき要約テキストと前記キーコンテンツとの両方を処理して、ターゲット要約テキストを生成することができ、又はステップS103は、前記第2の特定のコンテンツと前記中間テキストとの類似度又は情報量、及び前記中間テキストの長さのうちの一つ又は二つに基づいて、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的に追加して、ターゲット要約テキストを生成することができる。
例えば、ユーザ行動情報が、前記中間テキストと関連し且つ異なる第1の付加情報を取得し、前記中間テキストに追加してターゲット要約テキストを生成することである場合、ステップS103は、前記第1の抽出すべき要約テキストに基づいて、一つ又は複数の第2の抽出すべき要約テキストをユーザに提供することができ、前記ユーザによって所望の第2の抽出すべき要約テキストが選択された場合、ステップS103は、第3の所定の規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストと前記所望の第2の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することができる。
例えば、ステップS103は、前記第1の抽出すべき要約テキストに含まれるキー情報及びタイプに基づいて、前記第1の抽出すべき要約テキストと関連し且つ異なる一つ又は複数の第2の抽出すべき要約テキストを検索し、且つ前記一つ又は複数の第2の抽出すべき要約テキストに対して重複するものを除去してから順位付けを行い、最初のM個の第2の抽出すべき要約テキストをユーザに提供することができ、Mは正の整数である。
例えば、ステップS103は、前記第1の抽出すべき要約テキストとの類似度と、前記第1の抽出すべき要約テキストの被覆分野との違いと、前記第1の抽出すべき要約テキストとの時間差と、ユーザ画像による好みと、いう第4の所定の規則のうちの一つ又は複数に基づいて、一つ又は複数の次元で前記第1の抽出すべき要約テキストと関連し且つ異なる一つ又は複数の第2の抽出すべき要約テキストを順位付けすることができる。
例えば、ステップS103は、前記第1の抽出すべき要約テキスト、前記所望の第2の抽出すべき要約テキストの長さ、類似度、関連比率のうちの一つ又は複数に基づいて、第1のモデルにより前記所望の第2の抽出すべき要約テキストを処理して取得される前記第1の付加情報を前記中間テキストの特定の位置に置いてターゲット要約テキストを生成することができる。
例えば、ユーザ行動情報が、前記中間テキストにおける第3の特定のコンテンツに関連する情報を取得することである場合、ステップS103は、前記第3の特定のコンテンツに関連する情報を前記ユーザに提供し、前記第3の特定のコンテンツに関連する情報がユーザによって選択されるか、又は前記第3の特定のコンテンツを補完して、ターゲット要約テキストを生成することができる。
例えば、ステップS103は、共参照解析により前記第3の特定のコンテンツを処理し、前記第3の特定のコンテンツの一つ又は複数の候補コンテンツを取得し、且つ前記第3の特定のコンテンツの一つ又は複数の候補コンテンツにより前記第3の特定のコンテンツを補完することができる。
例えば、ステップS103は、前記第3の特定のコンテンツに関連する情報のコンテンツ、前記第3の特定のコンテンツに関連する情報のタイプ、前記第1の抽出すべき要約テキストの分野及びその加重和のうちの一つ又は複数に基づいて、知識ベースから検索される前記第3の特定のコンテンツに関連する一つ又は複数の情報を順位付けし、且つ前記第3の特定のコンテンツに関連する情報を前記ユーザに表示することができる。
例えば、ユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、ステップS103は、前記ユーザ行動情報に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整し、ターゲット要約テキストを生成することができる。
例えば、ステップS103は、前記第1の特定文及び前記第1の特定文に関連する文の構造図を構築し、且つ前記構造図に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整し、ターゲット要約テキストを生成することができる。
例えば、当該テキスト処理方法は、ユーザの履歴情報を取得し、且つ前記ユーザの履歴情報に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成することをさらに含んでもよい。
例えば、当該テキスト処理方法は、ユーザが当該テキスト処理方法を用いる時に好み値をチェックし、ユーザが当該テキスト処理方法を用いる場合に好みテンプレートをチェックするか、又はユーザが当該テキスト処理方法を登録する場合に好み値又はテンプレートをチェックし、ユーザ個別情報テーブルを形成することをさらに含んでもよく、前記処理方法は、さらに前記ユーザ個別情報テーブルに基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、ターゲット要約テキストを生成する。
例えば、テキスト処理方法は、さらにユーザ行動情報に基づいて取得されるターゲット要約テキスト、前記ユーザの履歴情報に基づいて取得されるターゲット要約テキスト及びユーザ好みに基づいて取得されるターゲット要約テキストの一つ又は複数をユーザに表示し、ユーザに選択させることができる。
本開示の実施例のテキスト処理方法によって、ユーザとのインタラクション又はユーザ設定によって、ユーザが所望するターゲット要約を取得することができる。
以下では、図21を参照して本開示の実施例によるテキスト処理機器1100を記述する。図21は、本開示の実施例によるテキスト処理機器の概略図を示す。本実施例のテキスト処理機器の機能は、図20を参照して上述した方法の詳細と同様であるため、ここでは、簡単のため、同じ内容の詳細な記述を省略する。
本開示のテキスト処理機器は、プロセッサ1102と、コンピュータ可読プログラム命令を記憶するメモリ1101とを含み、前記コンピュータ可読プログラム命令が前記プロセッサによって作動される場合にテキスト処理方法が実行され、前記テキスト処理方法は、第1の抽出すべき要約テキストを取得することと、ユーザ行動情報を取得することと、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成することとを含む。
異なる実施例におけるテキスト処理装置1000とテキスト処理機器1100の技術的効果については、本開示の実施例によるテキスト処理方法の技術的効果を参照してもよく、ここでこれ以上説明しない。
テキスト処理装置1000とテキスト処理機器1100は、様々な適切な電子機器に用いることができる。
図22は、本開示の実施例によるコンピュータ可読記憶媒体1200の概略図である。
図22に示すように、本開示は、コンピュータ可読命令1201を記憶するためのコンピュータ可読記憶媒体1200をさらに含み、前記命令は、コンピュータにテキスト処理方法を実行させ、前記テキスト処理方法は、第1の抽出すべき要約テキストを取得することと、ユーザ行動情報を取得することと、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成することとを含む。
<ハードウェア構造>
なお、上記実施形態の説明において使用されるブロック図は、機能を単位とするブロックを示す。これらの機能ブロック(構造ユニット)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は、特に限定されるものではない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合される一つの装置によって実現されてもよく、物理的及び/又は論理的に分離する二つの以上の装置を直接的及び/又は間接的に(例えば有線及び/又は無線によって)接続することにより、上記複数の装置によって実現されてもよい。
なお、上記実施形態の説明において使用されるブロック図は、機能を単位とするブロックを示す。これらの機能ブロック(構造ユニット)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は、特に限定されるものではない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合される一つの装置によって実現されてもよく、物理的及び/又は論理的に分離する二つの以上の装置を直接的及び/又は間接的に(例えば有線及び/又は無線によって)接続することにより、上記複数の装置によって実現されてもよい。
例えば、本開示の一実施形態における電子機器は、本開示のトレーニング方法の処理を実行するコンピュータとして機能を発揮することができる。図23は、本開示の一実施形態に係る電子機器60のハードウェア構造の一例の図を示す。上記電子機器60は、プロセッサ1010、内部メモリ1020、メモリ1030、通信装置1040、入力装置1050、出力装置1060、バス1070等を物理的に含むコンピュータ装置として構成することができる。
なお、以下の説明において、「装置」のような文字は、回路、機器、ユニット等に置換されてもよい。電子機器60のハードウェア構造は、一つ又は複数の図に示される各装置を含んでもよく、部分装置を含まなくてもよい。
例えば、プロセッサ1010は、一つだけ図示されるが、複数のプロセッサであってもよい。また、一つのプロセッサによって処理を実行してもよく、一つ以上のプロセッサによって同時に、順次に、又は他の方法を採用して処理を実行してもよい。なお、プロセッサ1010は、一つ以上のチップによって取り付けられることができる。
電子機器60における各機能は、例えば、予め決定されたソフトウェア(プログラム)をプロセッサ1010、内部メモリ1020等のハードウェアに読み込むことにより、プロセッサ1010が演算を行い、通信装置1040によって行われる通信を制御し、且つ内部メモリ1020とメモリ1030におけるデータの読み出し及び/又は書き込みを制御するという方式によって実現される。
プロセッサ1010は、例えば、オペレーティングシステムを作動させることにより、コンピュータ全体を制御する。プロセッサ1010は、周辺装置とのインターフェース、制御装置、演算装置、レジスタ等を含む中央処理装置(CPU、Central Processing Unit)で構成されることができる。
また、プロセッサ1010は、プログラム(プログラムコード)、ソフトウェアモジュール、データ等をメモリ1030及び/又は通信装置1040から内部メモリ1020に読み出し、且つそれらに基づいて様々な処理を実行する。プログラムとして、コンピュータに上記実施形態において説明された動作のうちの少なくとも一部を実行させるプログラムを採用することができる。例えば、電子機器60の制御ユニット401は、内部メモリ1020に保存され且つプロセッサ1010によって作動する制御プログラムによって実現されることができ、他の機能ブロックも同様に実現されることができる。
内部メモリ1020は、コンピュータ読み取り可能な記録媒体であり、例えば読み取り専用メモリ(ROM、Read Only Memory)、プログラマブル読み取り専用メモリ(EPROM、Erasable Programmable ROM)、電気プログラマブル読み取り専用メモリ(EEPROM、Electrically EPROM)、ランダムアクセスメモリ(RAM、Random Access Memory)、他の適切な記憶媒体のうちの少なくとも一つで構成されることができる。内部メモリ1020は、レジスタ、高速キャッシュ、メインメモリ(メイン記憶装置)等と呼ばれてもよい。内部メモリ1020は、本開示の一実施形態に係る無線通信方法を実施するための実行可能なプログラム(プログラムコード)、ソフトウェアモジュール等を保存することができる。
メモリ1030は、コンピュータ読み取り可能な記録媒体であり、例えばフレキシブルディスク(flexible disk)、フロッピー(登録商標)ディスク(floppy disk)、光磁気ディスク(例えば、読み取り専用ディスク(CD-ROM(Compact Disc ROM)等)、デジタル汎用ディスク、ブルーレイ(Blu-ray、登録商標)ディスク)、リムーバブルディスク、ハードディスクドライブ、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック(stick)、キードライブ(key driver))、磁気ストライプ、データベース、サーバ、他の適切な記憶媒体のうちの少なくとも一つで構成されることができる。メモリ1030は、補助記憶装置と呼ばれてもよい。
通信装置1040は、有線及び/又は無線ネットワークによってコンピュータ間の通信を行うためのハードウェア(送受信機器)であり、例えばネットワーク機器、ネットワークコントローラ、ネットカード、通信モジュール等とも呼ばれる。
入力装置1050は、外部からの入力を受け付ける入力機器(例えば、キーボード、マウス、マイクロホン、スイッチ、ボタン、センサ等)である。出力装置1060は、外部への出力を実施する出力機器(例えば、ディスプレイ、スピーカ、発光ダイオード(LED、Light Emitting Diode)ランプ等)である。なお、入力装置1050と出力装置1060は、一体の構造(例えばタッチパネル)であってもよい。
また、プロセッサ1010、内部メモリ1020等の各装置は、情報に対して通信を行うためのバス1070によって接続される。バス1070は、単一のバスで構成されてもよく、装置間の異なるバスで構成されてもよい。
また、電子機器60は、マイクロプロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、専用集積回路(ASIC、Application Specific Integrated Circuit)、プログラマブルロジックデバイス(PLD、Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)等のハードウェアを含んでもよく、当該ハードウェアによって各機能ブロックの一部又は全部を実現することができる。例えば、プロセッサ1010は、これらのハードウェアのうちの少なくとも一つによって取り付けられることができる。
ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれても、他の名称で呼ばれても、コマンド、コマンドセット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーションプログラム、ソフトウェアアプリケーションプログラム、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能なファイル、実行スレッド、ステップ、機能等を指すものとして広く解釈されるべきである。
また、ソフトウェア、コマンド、情報等は、伝送媒体経由で送信又は受信されることができる。例えば、有線技術(同軸ケーブル、光ケーブル、ツイストペア線、デジタル加入者回線(DSL、Digital Subscriber Line)等)及び/又は無線技術(赤外線、マイクロ波等)を用いてウェブサイト、サーバ、又は他のリモートリソースからソフトウェアを送信する時、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
本明細書で説明された各形態/実施形態は、単独で使用されてもよく、組み合わせて使用されてもよく、実行過程において切り替えて使用されてもよい。また、本明細書で説明された各形態/実施形態の処理ステップ、シーケンス、フローチャート等は、矛盾がない限り、順序を変更することができる。例えば、本明細書で説明された方法について、例示的な順序で様々なステップユニットが提示されており、提示された特定の順序に限定されるものではない。
本明細書で使用された「に基づく」というような記載は、他の段落に明記されていない限り、「のみに基づく」を意味するものではない。換言すれば、「に基づく」というような記載は、「のみに基づく」と「少なくともに基づく」の両方を指す。
本明細書で使用された「第1の」、「第2の」等の名称を用いるユニットに対するいかなる参照は、いずれもこれらのユニットの数又は順序を全面的に限定するものではない。これらの名称は、二つ以上のユニットを区別する便利な方法として本明細書で使用することができる。そのため、第1のユニットと第2のユニットの参照は、二つのユニットのみが採用可能であること、又は、第1のユニットがいくつかの形で第2のユニットよりも先行しなければならないことを意味するものではない。
本明細書又は特許請求の範囲において、「含む(including)」、「包含する(comprising)」、及びそれらの変形を用いる場合、それらの用語は、「備える」という用語と同様にオープンである。さらに、本明細書又は特許請求の範囲で使用される用語「又は(or)」は、排他的論理和ではない。
当業者であれば、本開示の態様は、新規で有用なプロセス、機械、製品又は物質の任意の組み合わせ、又はそれらに対する新規で有用な改良を含む、特許可能性を有するいくつかの種類又は状況によって説明され、記述され得ることを理解することができる。それに応じて、本開示の様々な態様は、ハードウェアによって完全に実行されてもよく、ソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)によって完全に実行されてもよく、ハードウェアとソフトウェアとの組み合わせによって実行されてもよい。以上のハードウェア又はソフトウェアは、いずれも「データブロック」、「モジュール」、「エンジン」、「ユニット」、「アセンブリ」又は「システム」と呼ばれてもよい。また、本開示の様々な態様は、一つ又は複数のコンピュータ可読媒体に位置するコンピュータ製品として表される可能性があり、当該製品は、コンピュータ可読プログラムコードを含む。
本開示は、特定の語を用いて本開示の実施例を記述する。例えば、「一つの実施例」、「一実施例」、及び/又は「いくつかの実施例」は、本開示の少なくとも一つの実施例に関連するある特徴、構造又は特徴を意味する。そのため、本明細書の異なる場所で二回以上言及されている「一実施例」又は「一つの実施例」又は「一代替的な実施例」は、必ずしも同じ実施例を意味するものではないことが強調され、留意されるべきである。また、本開示の一つ又は複数の実施例におけるなんらかの特徴、構造又は特徴は、適切に組み合わせることができる。
特に定義されていない限り、本明細書で使用される全ての用語(技術と科学用語を含む)は、当業者によって共通して理解されるのと同じ意味を有する。なお、通常の辞書で定義されているような用語は、本明細書で明示的に定義されていない限り、理想化された又は極端に形式化された意味で解釈されることなく、関連技術のコンテキストにおけるそれらの意味と一致する意味を有するものとして解釈されるべきである。
以上では、本開示について詳細に説明したが、当業者にとって、本開示が本明細書で説明された実施形態に限定されないことは明らかである。本開示は、特許請求の範囲の記載により決定される本開示の趣旨及び範囲を逸脱することなく、変更及び変更形態として実施することができる。したがって、本明細書の記載は、例示を目的としたものであり、本開示に対していかなる限定的な意味もない。
Claims (20)
- テキストを処理して要約を抽出する、テキスト処理装置であって、
複数のユーザのユーザデータを取得するユーザデータ取得モジュールと、
前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得するトレーニングモジュールと、を含み、
前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報とに基づいて、ターゲット要約テキストを生成するために用いられる、
テキスト処理装置。 - 前記ユーザデータ取得モジュールは、第1の所定の規則に基づいて、前記複数のユーザのユーザデータを複数のデータカテゴリに分類し、
前記トレーニングモジュールは、前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、前記複数のデータカテゴリに対するターゲットモデルを取得し、
前記第1の所定の規則は、ユーザ行動に関連されている、
請求項1に記載のテキスト処理装置。 - 前記第1の所定の規則は、クラスタリング規則又は回帰規則である、
請求項2に記載のテキスト処理装置。 - 前記トレーニングモジュールは、前記複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、前記複数のユーザのうちの各ユーザに対するターゲットモデルを取得する、
請求項1に記載のテキスト処理装置。 - 前記複数のユーザのユーザデータは、所定の期間のユーザデータを表す、
請求項4に記載のテキスト処理装置。 - 前記テキスト処理装置は、ユーザフィードバックに基づいて、取得された前記複数のユーザのユーザデータをスクリーニングするスクリーニングモジュールをさらに含み、前記トレーニングモジュールは、スクリーニングされた複数のユーザのユーザデータを用いて前記第1のモデルをトレーニングして、異なるカテゴリに対するターゲットモデルを取得し、
前記ユーザフィードバックは、直接フィードバックと間接フィードバックを含む、
請求項1から5のいずれか1項に記載のテキスト処理装置。 - 前記スクリーニングモジュールは、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴とに対して重み付けを行ってスコアを付け、異なるスコアを有し且つスクリーニングされた複数のユーザのユーザデータを取得する、
請求項6に記載のテキスト処理装置。 - 前記スクリーニングモジュールは、全てのユーザに対して同じ重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴とに対して重み付けを行ってスコアを付け、スクリーニングされた複数のユーザのユーザデータを取得する、
請求項7に記載のテキスト処理装置。 - 前記スクリーニングモジュールは、異なるユーザに対して異なる重みを用いて、前記ユーザフィードバックに関連する特徴と前記複数のユーザのユーザデータの特徴とに対して重み付けを行ってスコアを付け、スクリーニングされた複数のユーザのユーザデータを取得する、
請求項7に記載のテキスト処理装置。 - 前記第1の抽出すべき要約テキストを取得する第1の抽出すべき要約テキスト取得モジュールと、
ユーザ行動情報を取得するユーザ行動情報取得モジュールと、
第1のモデルにより前記第1の抽出すべき要約テキストを処理して、中間テキストを取得し、且つ取得されたユーザ行動情報に基づいて前記中間テキストを処理して、ターゲット要約テキストを生成する処理モジュールと、をさらに含む、
請求項1から9のいずれか1項に記載のテキスト処理装置。 - 前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを削除することである場合、前記処理モジュールは、前記中間テキストにおける第1の特定のコンテンツを直接削除してターゲット要約テキストを生成し、
前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第1の特定のコンテンツを変更することである場合、前記処理モジュールは、前記第1の特定のコンテンツを置換する候補推薦コンテンツを前記ユーザに提供して、前記候補推薦コンテンツがユーザによって選択され、且つ前記ユーザによって選択された候補推薦コンテンツを用いて、前記第1の特定のコンテンツを置換してターゲット要約テキストを生成する、
請求項10に記載のテキスト処理装置。 - 前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに追加することである場合、
前記処理モジュールは、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに直接追加してターゲット要約テキストを生成するか、又は
前記処理モジュールは、前記第2の特定のコンテンツをキーコンテンツとして、前記第1のモデルにより前記第1の抽出すべき要約テキストと前記キーコンテンツとの両方を処理して、ターゲット要約テキストを生成するか、又は
前記処理モジュールは、前記第2の特定のコンテンツと前記中間テキストとの類似度又は情報量、及び前記中間テキストの長さのうちの一つ又は二つに基づいて、前記第1の抽出すべき要約テキストにおける第2の特定のコンテンツを前記中間テキストに適応的に追加して、ターゲット要約テキストを生成する、
請求項10に記載のテキスト処理装置。 - 前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストと関連し且つ異なる第1の付加情報を取得し、前記中間テキストに追加してターゲット要約テキストを生成することである場合、
前記処理モジュールは、前記第1の抽出すべき要約テキストに基づいて、一つ又は複数の第2の抽出すべき要約テキストをユーザに提供し、前記ユーザによって所望の第2の抽出すべき要約テキストが選択された場合、前記処理モジュールは、第3の所定の規則に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストと前記第2の抽出すべき要約テキストとを処理して、中間テキストと前記第1の付加情報とを生成して前記ターゲット要約テキストとする、
請求項10に記載のテキスト処理装置。 - 前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストにおける第3の特定のコンテンツに関連する情報を取得することである場合、前記処理モジュールは、前記第3の特定のコンテンツに関連する情報を前記ユーザに提供し、前記第3の特定のコンテンツに関連する情報がユーザによって選択されるか、又は前記第3の特定のコンテンツを補完して、ターゲット要約テキストを生成する、
請求項10に記載のテキスト処理装置。 - 前記ユーザ行動情報取得モジュールによって取得されたユーザ行動情報が、前記中間テキストに含まれる第1の特定文の順序を変更することである場合、前記処理モジュールは、前記ユーザ行動情報に基づいて前記第1の特定文及び前記第1の特定文に関連する文の順序を調整し、ターゲット要約テキストを生成する、
請求項10に記載のテキスト処理装置。 - 前記テキスト処理装置は、ユーザの履歴情報を取得するためのユーザ履歴情報取得モジュールをさらに含み、
前記処理モジュールは、さらに前記ユーザの履歴情報に基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、前記ターゲット要約テキストを生成する、
請求項1に記載のテキスト処理装置。 - 前記テキスト処理装置は、ユーザによって当該テキスト処理装置が用いられる場合に選択された好みオプション、又はユーザによって当該テキスト処理装置が登録される場合に選択された好みオプションで、ユーザ個別情報テーブルを形成するためのユーザ好み設定モジュールをさらに含み、
前記処理モジュールは、さらに前記ユーザ個別情報テーブルに基づいて、第1のモデルにより前記第1の抽出すべき要約テキストを処理して、ターゲット要約テキストを生成する、
請求項1に記載のテキスト処理装置。 - 複数のユーザのユーザデータを取得することと、
前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することと、を含み、
前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる、
テキスト処理方法。 - プロセッサと、
コンピュータ可読プログラム命令を記憶するメモリと、を含み、
前記コンピュータ可読プログラム命令が前記プロセッサによって実行される場合にテキスト処理方法が実施され、前記テキスト処理方法は、
複数のユーザのユーザデータを取得することと、
前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することと、を含み、
前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報とに基づいて、ターゲット要約テキストを生成するために用いられる、
テキスト処理機器。 - コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体であって、前記プログラムは、コンピュータにテキスト処理方法を実行させ、前記テキスト処理方法は、
複数のユーザのユーザデータを取得することと、
前記複数のユーザのユーザデータを用いて第1のモデルをトレーニングして、異なるカテゴリのターゲットモデルを取得することと、を含み、
前記第1のモデルは、第1の抽出すべき要約テキストとユーザ行動情報に基づいて、ターゲット要約テキストを生成するために用いられる、
コンピュータ可読命令を記憶するためのコンピュータ可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609227.6A CN115438174A (zh) | 2021-06-01 | 2021-06-01 | 文本处理装置、方法、设备和计算机可读存储介质 |
CN202110609227.6 | 2021-06-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022184827A true JP2022184827A (ja) | 2022-12-13 |
Family
ID=84240061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022089393A Pending JP2022184827A (ja) | 2021-06-01 | 2022-06-01 | テキスト処理装置、方法、機器及びコンピュータ可読記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022184827A (ja) |
CN (1) | CN115438174A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187956A (zh) * | 2023-04-25 | 2023-05-30 | 上海百通项目管理咨询有限公司 | 一种招标文件生成方法及系统 |
CN116756293A (zh) * | 2023-08-11 | 2023-09-15 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187324B (zh) * | 2023-04-28 | 2023-08-22 | 西湖大学 | 为源语言的长文本生成跨语言摘要的方法、系统及介质 |
-
2021
- 2021-06-01 CN CN202110609227.6A patent/CN115438174A/zh active Pending
-
2022
- 2022-06-01 JP JP2022089393A patent/JP2022184827A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187956A (zh) * | 2023-04-25 | 2023-05-30 | 上海百通项目管理咨询有限公司 | 一种招标文件生成方法及系统 |
CN116187956B (zh) * | 2023-04-25 | 2023-07-18 | 上海百通项目管理咨询有限公司 | 一种招标文件生成方法及系统 |
CN116756293A (zh) * | 2023-08-11 | 2023-09-15 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115438174A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hossain et al. | " President Vows to Cut< Taxes> Hair": Dataset and Analysis of Creative Text Editing for Humorous Headlines | |
US20210232763A1 (en) | Graphical systems and methods for human-in-the-loop machine intelligence | |
US20200184276A1 (en) | Method and system for generating and correcting classification models | |
CN109196496B (zh) | 未知词预测器和内容整合的翻译器 | |
US11556865B2 (en) | User-centric browser location | |
CN106503192B (zh) | 基于人工智能的命名实体识别方法及装置 | |
JP2022184827A (ja) | テキスト処理装置、方法、機器及びコンピュータ可読記憶媒体 | |
Cappallo et al. | New modality: Emoji challenges in prediction, anticipation, and retrieval | |
JP6759308B2 (ja) | 保守装置 | |
US8156060B2 (en) | Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character | |
US20190361966A1 (en) | Graphical systems and methods for human-in-the-loop machine intelligence | |
US11989215B2 (en) | Language detection of user input text for online gaming | |
JP7252914B2 (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
Augustyniak et al. | Simpler is better? Lexicon-based ensemble sentiment classification beats supervised methods | |
US8856109B2 (en) | Topical affinity badges in information retrieval | |
JP2022031109A (ja) | ニューラルネットワークに基づくマンマシンインタラクション方法、装置、及び媒体 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2021086592A (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
JP2021086580A (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
JP2022184830A (ja) | テキスト処理装置、方法、機器及びコンピュータ可読記憶媒体 | |
Sodré et al. | Chatbot Optimization using Sentiment Analysis and Timeline Navigation | |
JP6948978B2 (ja) | 知識データのデータ構造 | |
JP2021128620A (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
Di Fabbrizio et al. | Summarizing opinion-related Information for mobile devices | |
US20240135088A1 (en) | Machine learning-based generation of synthesized documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220907 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20230928 |