JP7290730B2 - 文生成方法と装置、電子機器及びプログラム - Google Patents
文生成方法と装置、電子機器及びプログラム Download PDFInfo
- Publication number
- JP7290730B2 JP7290730B2 JP2021540365A JP2021540365A JP7290730B2 JP 7290730 B2 JP7290730 B2 JP 7290730B2 JP 2021540365 A JP2021540365 A JP 2021540365A JP 2021540365 A JP2021540365 A JP 2021540365A JP 7290730 B2 JP7290730 B2 JP 7290730B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sequences
- sequence
- candidate
- predetermined number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 103
- 239000013598 vector Substances 0.000 claims description 60
- 230000000875 corresponding effect Effects 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 24
- 238000013519 translation Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100171060 Caenorhabditis elegans div-1 gene Proteins 0.000 description 1
- 241001492658 Cyanea koolauensis Species 0.000 description 1
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 238000011511 automated evaluation Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
入力シーケンスを取得するステップと、
入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得するステップと、
文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するステップと、
第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップと、
少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するステップであって、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい、ステップと、
第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定するステップと、を含む文生成方法。
入力シーケンスを取得するための取得モジュールと、
入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得するための符号化モジュールと、
文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するための復号化モジュールと、
第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するためのクラスタリングモジュールと、
少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するための選別モジュールであって、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい、選別モジュールと、
第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定するための決定モジュールと、を含む文生成装置。
少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されているメモリと、を含み、
1つ以上のプロセッサは、少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットをロードして実行し、上記第1の態様の文生成方法を実現するように構成される、電子機器。
復号化とは、自然言語処理において、入力データに基づいて文を逐語に生成する処理プロセスである。
一実施形態では、入力シーケンスは、入力されるテキストデータであるか、又は入力される音声データや、イメージデータを認識して得られるテキストデータである。
一実施形態では、文特徴ベクトルは、ベクトルシーケンス又は単一のベクトルである。
電子機器は、エンコーダを用いて入力シーケンスをベクトルに符号化することができ、エンコーダによって符号化されたベクトルは、例えば意図(確認、質問など)や、具体的な名前付きエンティティ(例えば、場所、時間など)などの、入力シーケンスのあらゆる面での情報を含む。
一実施形態では、電子機器は、文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する。候補文シーケンスは、少なくとも1つの復号化単語を含む。
一実施形態では、電子機器は、第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する。文シーケンス集合は、少なくとも1つの候補文シーケンスを含む。
一実施形態では、電子機器は、第2の所定数の候補文シーケンスから1つの候補文シーケンスを入力シーケンスに対応する出力シーケンスとして選択する。
一実施形態では、電子機器は、第1のアプリケーションプログラムにより、入力された文を取得し、入力された文に基づいて入力シーケンスを生成する。
一実施形態では、文特徴タイプは、候補文シーケンスの文流暢性及び/又は候補文シーケンスと入力シーケンスとの間の関連度を示す。
start symbol
Output:Final response rsp
Data:Language model threshold lmth
while Number of completed hypothesis does not
reach BS or maximum decoding step is not reached
do
for i in BS do
tmpHyps=Top-N(Extend(C[i]),BS×2);
Remove hyps in tmpHups with repeated
N-grams or UNK;
Save tmpHyps to extended candidates;
end
Perform K-means over extended candidates;
for candidates in each cluster do
Sort candidates by partial log-prob in R;
Choose top BS/K candidates;
Put candidates with end symbol in R;
Put incomplete candidates in Cnew;
end
C←Cnew
end
Sort R according to log-prob scores;
for hyp in R do
if socrelm(hyp)<lmth then
rsp←hyp;
break;
end
end
ここで、BSは第2の所定数であり、Cは入力シーケンスに対応する文特徴ベクトルを含み、rspは出力シーケンスを表し、socrelm(hyp)は文スコアであり、lmthはスコア閾値であり、hypは候補文シーケンスを表し、Kは文シーケンス集合の数であり、Rは候補文シーケンスの集合を表し、K-meansはK平均クラスタリングアルゴリズムを表す。
ここで、翻訳対象文は翻訳対象となる第1の言語タイプの文である。
符号化モジュール820は、上記ステップ302又は402を実行する。
復号化モジュール830は、上記ステップ303を実行する。
クラスタリングモジュール840は、上記ステップ304又は404を実行する。
選別モジュール850は、上記ステップ305又は405を実行する。
決定モジュール860は、上記ステップ306を実行する。
ここで、所定のクラスタリングアルゴリズムは、K平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム、密度ベースのクラスタリングアルゴリズム、ガウス混合モデルを用いる期待値最大化クラスタリングアルゴリズム、凝集型階層的クラスタリングアルゴリズムのうちの少なくとも1つを含む。
第1の文特徴タイプは、候補文シーケンスが安全な文シーケンスであることを示すためのものであり、
第2の文特徴タイプは、候補文シーケンスが流暢でない文シーケンスであることを示すためのものであり、
第3の文特徴タイプは、候補文シーケンスが流暢でかつ的確性を有する文シーケンスであることを示すためのものである。
文シーケンス集合中の、ソートした上位N個の候補文シーケンスを取得し、Nは正の整数である。
文生成方法が機械翻訳システムに適用される場合、入力シーケンスが翻訳対象の第1の言語タイプの文であり、出力シーケンスが翻訳済みの第2の言語タイプの文であり、ここで、第1の言語タイプが第2の言語タイプと異なり、
文生成方法が質問応答システムに適用される場合、入力シーケンスが質問文であり、出力シーケンスが回答文であり、
文生成方法が自動創作システムに適用される場合、入力シーケンスがテーマ文であり、出力シーケンスがコンテンツ文であり、
文生成方法が読解システムに適用される場合、入力シーケンスが問題文であり、出力シーケンスが答え文である。
該装置は、さらに、出力シーケンスに基づいて応答文を生成し、対話アプリケーションプログラムにより応答文を表示するための表示モジュールを含む。
200 電子機器
10 プロセッサ
20 メモリ
21 オペレーティングシステム
22 取得モジュール
23 符号化モジュール
24 復号化モジュール
25 クラスタリングモジュール
26 選別モジュール
27 決定モジュール
28 アプリケーションプログラム
30 通信インタフェース
810 取得モジュール
820 符号化モジュール
830 復号化モジュール
840 クラスタリングモジュール
850 選別モジュール
860 決定モジュール
900 端末
901 プロセッサ
902 メモリ
903 周辺機器インタフェース
904 無線周波数回路
905 ディスプレイ
906 カメラコンポーネント
907 オーディオ回路
908 測位コンポーネント
909 電源
910 センサ
911 加速度センサ
912 ジャイロセンサ
913 圧力センサ
914 指紋センサ
915 光学センサ
916 近接センサ
1000 端末
1001 中央処理装置
1002 ランダムアクセスメモリ(RAM)
1003 リードオンリーメモリ(ROM)
1004 システムメモリ
1005 システムバス
1006 出力システム
1007 大容量記憶装置
1008 ディスプレイ
1009 入力装置
1010 出力コントローラー
1011 ネットワークインタフェースユニット
1012 ネットワーク
1013 オペレーティングシステム
1014 アプリケーションプログラム
1015 プログラムモジュール
Claims (15)
- 電子機器が実行する文生成方法であって、
入力シーケンスを取得するステップと、
前記入力シーケンスを符号化処理して文特徴ベクトルを取得するステップと、
前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するステップと、
前記第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップであって、前記少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプが異なる、ステップと、
前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するステップであって、前記第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含む、ステップと、
予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定するステップであって、前記予め設定された決定方略は、前記第2の所定数の各候補文シーケンスの文品質を評価することを含む、ステップと、を含む文生成方法。 - 前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する前記ステップは、
前記文特徴ベクトルに対してi回目の復号化を行って前記第1の所定数の候補文シーケンスを取得するステップであって、前記候補文シーケンスがi個の復号化単語を含み、前記iの初期値が1である、ステップを含み、
前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する前記ステップの後、前記方法は、さらに、
前記i回目の復号化によって取得された復号化単語に予測された終了単語が含まれない場合、前記第2の所定数の候補文シーケンスをi+1回目の復号化の入力とすると共に、前記i+1回目をi回目として、前記文特徴ベクトルに対してi回目の復号化を行って前記第1の所定数の候補文シーケンスを取得するステップを継続して実行するステップと、
前記i回目の復号化によって取得された復号化単語に前記予測された終了単語が含まれる場合、予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定する前記ステップを実行するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記文特徴タイプは、前記候補文シーケンスが安全な文シーケンスであることを示すための第1の文特徴タイプ、前記候補文シーケンスが流暢でない文シーケンスであることを示すための第2の文特徴タイプ、及び、前記候補文シーケンスが流暢でかつ的確性を有する文シーケンスであることを示すための第3の文特徴タイプのうちの少なくとも1つを含む、ことを特徴とする請求項1または2に記載の方法。
- 予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定する前記ステップは、
文スコアリングモデルを取得するステップであって、前記文スコアリングモデルは、サンプル文シーケンスに基づいてトレーニングして得られた文評価ルールを表すためのものである、ステップと、
前記第2の所定数の候補文シーケンスの各前記候補文シーケンスを前記文スコアリングモデルに入力して文スコアを取得するステップであって、前記文スコアは、前記候補文シーケンスの文品質を示すためのものである、ステップと、
前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、前記出力シーケンスを決定するステップと、を含み、
前記文スコアと前記候補文シーケンスの文品質とは負の相関関係にあり、
前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、前記出力シーケンスを決定する前記ステップは、
前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアのうちの最も低い文スコアを決定するステップと、
前記最も低い文スコアに対応する候補文シーケンスを前記出力シーケンスとして決定するステップと、を含むことを特徴とする請求項1に記載の方法。 - 文スコアリングモデルを取得する前記ステップは、
トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットが少なくとも1組のサンプルデータ組を含み、各前記サンプルデータ組がサンプル文シーケンスと予めアノテーションされた正しい文スコアとを含む、ステップと、
前記少なくとも1組のサンプルデータ組に基づいて、誤差逆伝播アルゴリズムを用いて元のパラメータモデルをトレーニングし、前記文スコアリングモデルを取得するステップと、を含むことを特徴とする請求項4に記載の方法。 - 前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する前記ステップは、
前記少なくとも2種類の文シーケンス集合の各種類の前記文シーケンス集合について、前記文シーケンス集合中の複数の候補文シーケンスをソートするステップと、
前記文シーケンス集合中の、ソートした上位所定数の候補文シーケンスを取得するステップと、を含むことを特徴とする請求項1に記載の方法。 - 前記文生成方法が対話システムに適用され、前記入力シーケンスが応答対象文であり、前記出力シーケンスが応答文である、ことを特徴とする請求項1に記載の方法。
- 前記文生成方法が機械翻訳システムに適用され、前記入力シーケンスが翻訳対象の第1の言語タイプの文であり、前記出力シーケンスが翻訳済みの第2の言語タイプの文であり、第1の言語タイプが第2の言語タイプと異なる、ことを特徴とする請求項1に記載の方法。
- 前記文生成方法が質問応答システムに適用され、前記入力シーケンスが質問文であり、前記出力シーケンスが回答文である、ことを特徴とする請求項1に記載の方法。
- 前記文生成方法が自動創作システムに適用され、前記入力シーケンスがテーマ文であり、前記出力シーケンスがコンテンツ文である、ことを特徴とする請求項1に記載の方法。
- 前記文生成方法が読解システムに適用され、前記入力シーケンスが問題文であり、前記出力シーケンスが答え文である、ことを特徴とする請求項1に記載の方法。
- 入力シーケンスを取得する前記ステップは、
対話アプリケーションプログラムにより入力された応答対象文を入力シーケンスとして取得するステップを含み、
前記方法は、さらに、
前記出力シーケンスとして応答文を取得するステップと、
前記対話アプリケーションプログラムにより前記応答文を表示するステップと、を含むことを特徴とする請求項1に記載の方法。 - 電子機器に設けられる文生成装置であって、
入力シーケンスを取得するための取得モジュールと、
前記入力シーケンスを符号化処理して文特徴ベクトルを取得するための符号化モジュールと、
前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するための復号化モジュールと、
前記第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するためのクラスタリングモジュールであって、前記少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプが異なる、クラスタリングモジュールと、
前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するための選別モジュールであって、前記第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含む、選別モジュールと、
予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定するための決定モジュールであって、前記予め設定された決定方略は、前記第2の所定数の各候補文シーケンスの文品質を評価することを含む、決定モジュールと、を含むことを特徴とする文生成装置。 - 1つ以上のプロセッサと、
少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されているメモリと、を含み、
前記1つ以上のプロセッサは、前記少なくとも1つのコンピュータ可読命令、前記少なくとも1つのプログラム、前記コードセット又はコンピュータ可読命令セットをロードして実行し、請求項1~12のいずれか一項に記載の文生成方法を実現するように構成される、ことを特徴とする電子機器。 - コンピュータに、請求項1~12のいずれか1項に記載の文生成方法を実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910068987.3 | 2019-01-24 | ||
CN201910068987.3A CN110162604B (zh) | 2019-01-24 | 2019-01-24 | 语句生成方法、装置、设备及存储介质 |
PCT/CN2020/073407 WO2020151690A1 (zh) | 2019-01-24 | 2020-01-21 | 语句生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022500808A JP2022500808A (ja) | 2022-01-04 |
JP7290730B2 true JP7290730B2 (ja) | 2023-06-13 |
Family
ID=67644826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021540365A Active JP7290730B2 (ja) | 2019-01-24 | 2020-01-21 | 文生成方法と装置、電子機器及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US12067347B2 (ja) |
JP (1) | JP7290730B2 (ja) |
CN (1) | CN110162604B (ja) |
WO (1) | WO2020151690A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162604B (zh) * | 2019-01-24 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 语句生成方法、装置、设备及存储介质 |
CN110827085A (zh) * | 2019-11-06 | 2020-02-21 | 北京字节跳动网络技术有限公司 | 文本处理方法、装置及设备 |
CN110990697A (zh) * | 2019-11-28 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备和存储介质 |
CN112308313B (zh) * | 2020-10-29 | 2023-06-16 | 中国城市规划设计研究院 | 一种学校连续点选址方法、装置、介质及计算机设备 |
CN113807074A (zh) * | 2021-03-12 | 2021-12-17 | 京东科技控股股份有限公司 | 基于预训练语言模型的相似语句生成方法和装置 |
CN116738191B (zh) * | 2023-06-14 | 2024-07-26 | 苏州光格科技股份有限公司 | 时序数据的增强处理方法、装置和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013254420A (ja) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、モデル学習装置、方法、及びプログラム |
CN108021705A (zh) | 2017-12-27 | 2018-05-11 | 中科鼎富(北京)科技发展有限公司 | 一种答案生成方法及装置 |
JP2018180937A (ja) | 2017-04-13 | 2018-11-15 | 日本電信電話株式会社 | クラスタリング装置、回答候補生成装置、方法、及びプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7225120B2 (en) * | 2001-05-30 | 2007-05-29 | Hewlett-Packard Development Company, L.P. | Method of extracting important terms, phrases, and sentences |
CN1790332A (zh) * | 2005-12-28 | 2006-06-21 | 刘文印 | 一种问题答案的阅读浏览显示方法及其系统 |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US20110246465A1 (en) * | 2010-03-31 | 2011-10-06 | Salesforce.Com, Inc. | Methods and sysems for performing real-time recommendation processing |
JP6414956B2 (ja) * | 2014-08-21 | 2018-10-31 | 国立研究開発法人情報通信研究機構 | 質問文生成装置及びコンピュータプログラム |
US9910886B2 (en) * | 2015-04-17 | 2018-03-06 | International Business Machines Corporation | Visual representation of question quality |
CN104778256B (zh) * | 2015-04-20 | 2017-10-17 | 江苏科技大学 | 一种领域问答系统咨询的快速可增量聚类方法 |
US11157536B2 (en) * | 2016-05-03 | 2021-10-26 | International Business Machines Corporation | Text simplification for a question and answer system |
US9881082B2 (en) * | 2016-06-20 | 2018-01-30 | International Business Machines Corporation | System and method for automatic, unsupervised contextualized content summarization of single and multiple documents |
US9886501B2 (en) * | 2016-06-20 | 2018-02-06 | International Business Machines Corporation | Contextual content graph for automatic, unsupervised summarization of content |
KR102565274B1 (ko) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
KR102565275B1 (ko) * | 2016-08-10 | 2023-08-09 | 삼성전자주식회사 | 병렬 처리에 기초한 번역 방법 및 장치 |
US10275515B2 (en) * | 2017-02-21 | 2019-04-30 | International Business Machines Corporation | Question-answer pair generation |
US10579725B2 (en) * | 2017-03-15 | 2020-03-03 | International Business Machines Corporation | Automated document authoring assistant through cognitive computing |
CN107368547A (zh) * | 2017-06-28 | 2017-11-21 | 西安交通大学 | 一种基于深度学习的智能医疗自动问答方法 |
US11409749B2 (en) * | 2017-11-09 | 2022-08-09 | Microsoft Technology Licensing, Llc | Machine reading comprehension system for answering queries related to a document |
US10497366B2 (en) * | 2018-03-23 | 2019-12-03 | Servicenow, Inc. | Hybrid learning system for natural language understanding |
US11042713B1 (en) * | 2018-06-28 | 2021-06-22 | Narrative Scienc Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system |
CN108897872B (zh) * | 2018-06-29 | 2022-09-27 | 北京百度网讯科技有限公司 | 对话处理方法、装置、计算机设备和存储介质 |
CN109145099B (zh) * | 2018-08-17 | 2021-02-23 | 百度在线网络技术(北京)有限公司 | 基于人工智能的问答方法和装置 |
CN110162604B (zh) * | 2019-01-24 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 语句生成方法、装置、设备及存储介质 |
US11036941B2 (en) * | 2019-03-25 | 2021-06-15 | International Business Machines Corporation | Generating a plurality of document plans to generate questions from source text |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
-
2019
- 2019-01-24 CN CN201910068987.3A patent/CN110162604B/zh active Active
-
2020
- 2020-01-21 WO PCT/CN2020/073407 patent/WO2020151690A1/zh active Application Filing
- 2020-01-21 JP JP2021540365A patent/JP7290730B2/ja active Active
-
2021
- 2021-04-14 US US17/230,985 patent/US12067347B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013254420A (ja) | 2012-06-08 | 2013-12-19 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答装置、モデル学習装置、方法、及びプログラム |
JP2018180937A (ja) | 2017-04-13 | 2018-11-15 | 日本電信電話株式会社 | クラスタリング装置、回答候補生成装置、方法、及びプログラム |
CN108021705A (zh) | 2017-12-27 | 2018-05-11 | 中科鼎富(北京)科技发展有限公司 | 一种答案生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020151690A1 (zh) | 2020-07-30 |
CN110162604A (zh) | 2019-08-23 |
JP2022500808A (ja) | 2022-01-04 |
US12067347B2 (en) | 2024-08-20 |
US20210232751A1 (en) | 2021-07-29 |
CN110162604B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7290730B2 (ja) | 文生成方法と装置、電子機器及びプログラム | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
CN111339246B (zh) | 查询语句模板的生成方法、装置、设备及介质 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN107423398B (zh) | 交互方法、装置、存储介质和计算机设备 | |
Wöllmer et al. | LSTM-modeling of continuous emotions in an audiovisual affect recognition framework | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
Eyben et al. | A multitask approach to continuous five-dimensional affect sensing in natural speech | |
CN112069309B (zh) | 信息获取方法、装置、计算机设备及存储介质 | |
CN111460201A (zh) | 一种基于生成性对抗网络的模态一致性跨模态检索方法 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN113836295B (zh) | 一种文本摘要提取方法、系统、终端及存储介质 | |
CN116821781A (zh) | 分类模型的训练方法、文本分析方法及相关设备 | |
CN116958342A (zh) | 虚拟形象的动作生成方法、动作库的构建方法及装置 | |
Lotfian et al. | Over-sampling emotional speech data based on subjective evaluations provided by multiple individuals | |
JP2005141437A (ja) | パターン認識装置及びその方法 | |
CN116680379A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
US20240028952A1 (en) | Apparatus for attribute path generation | |
CN113609863B (zh) | 一种训练、使用数据转换模型的方法、装置及计算机设备 | |
CN115269961A (zh) | 内容搜索方法以及相关设备 | |
Ke et al. | An interactive system for humanoid robot SHFR-III | |
Elbarougy et al. | Continuous audiovisual emotion recognition using feature selection and lstm | |
CN118429897B (zh) | 群体检测方法、装置、存储介质和电子设备 | |
US12100393B1 (en) | Apparatus and method of generating directed graph using raw data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220905 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7290730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |