JP7290730B2 - 文生成方法と装置、電子機器及びプログラム - Google Patents

文生成方法と装置、電子機器及びプログラム Download PDF

Info

Publication number
JP7290730B2
JP7290730B2 JP2021540365A JP2021540365A JP7290730B2 JP 7290730 B2 JP7290730 B2 JP 7290730B2 JP 2021540365 A JP2021540365 A JP 2021540365A JP 2021540365 A JP2021540365 A JP 2021540365A JP 7290730 B2 JP7290730 B2 JP 7290730B2
Authority
JP
Japan
Prior art keywords
sentence
sequences
sequence
candidate
predetermined number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021540365A
Other languages
English (en)
Other versions
JP2022500808A (ja
Inventor
翊章 ▲譚▼
佳晨 丁
▲暢▼宇 ▲繆▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022500808A publication Critical patent/JP2022500808A/ja
Application granted granted Critical
Publication of JP7290730B2 publication Critical patent/JP7290730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願は、2019年1月24日に中国国家知識産権局に提出された、出願番号が2019100689873で、発明の名称が「文生成方法、装置、機器及び記憶媒体」である中国特許出願の優先権を主張するものであり、その全ての内容は、参照により本願に組み込まれるものとする。
本願の実施形態は、人工知能の分野に関し、特に文生成方法、装置、機器及び記憶媒体に関する。
文生成方法は、任意の機能の対話システム、機械翻訳システム、質問応答システム、自動創作システム、読解システムに用いられることができ、特に、大きい情報量と多様性を必要とする対話システムに適用されている。
深層学習に基づく文生成方法は、現在発展の方向であり、ユーザが入力した文シーケンスを取得した後、その出力シーケンスの生成方法は、入力された文シーケンスをベクトルに符号化するステップと、ベクトルを復号化して出力シーケンスを取得するステップとを含む。
上記方法は、出力シーケンスを生成するプロセスにおいて、入力された文シーケンスを効果的に処理できないため、生成した文が正確ではない。
本願に係る様々な実施形態によれば、文生成方法、装置、機器及び記憶媒体を提供する。具体的な技術解決策は、以下のとおりである。
電子機器が実行する文生成方法であって、
入力シーケンスを取得するステップと、
入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得するステップと、
文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するステップと、
第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップと、
少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するステップであって、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい、ステップと、
第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定するステップと、を含む文生成方法。
電子機器に設けられる文生成装置であって、
入力シーケンスを取得するための取得モジュールと、
入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得するための符号化モジュールと、
文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するための復号化モジュールと、
第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するためのクラスタリングモジュールと、
少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するための選別モジュールであって、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい、選別モジュールと、
第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定するための決定モジュールと、を含む文生成装置。
1つ以上のプロセッサと、
少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されているメモリと、を含み、
1つ以上のプロセッサは、少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットをロードして実行し、上記第1の態様の文生成方法を実現するように構成される、電子機器。
1つ以上のプロセッサによってロードされて実行されると、上記第1の態様の文生成方法を実現する少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されている、1つ以上のコンピュータ可読記憶媒体。
本願の1つ以上の実施形態の詳細は、以下の図面及び説明において提供される。本願の他の特徴、目的及び利点は、本願の明細書、図面及び特許請求の範囲から明らかになる。
本願の実施形態における技術手段をより明確に説明するために、以下、実施形態の説明に必要な図面を簡単に説明するが、明らかに、以下の説明における図面は、本願のいくつかの実施形態に過ぎず、当業者であれば、創造的な労働をせずにこれらの図面に基づいて他の図面を得ることができる。
本願の例示的な一実施形態に係る適用シーンの概略構成図である。 本願の例示的な一実施形態に係る電子機器のハードウェアの概略構成図である。 本願の例示的な一実施形態に係る文生成方法のフローチャートである。 本願の別の例示的な実施形態に係る文生成方法のフローチャートである。 本願の例示的な一実施形態に係る文生成方法の原理概略図である。 本願の別の例示的な実施形態に係る文生成方法のフローチャートである。 本願の別の例示的な実施形態に係る文生成方法のフローチャートである。 本願の例示的な一実施形態に係る文生成装置の概略構成図である。 本願の例示的な一実施形態に係る端末の概略構成図である。 本願の例示的な一実施形態に係るサーバの概略構成図である。
本願の目的、技術手段及び利点をより明確にするために、以下、図面を参照しながら本願の実施形態をさらに詳細に説明する。
まず、本願の実施形態に係るいくつかの用語を解釈する。
復号化とは、自然言語処理において、入力データに基づいて文を逐語に生成する処理プロセスである。
クラスタリングとは、クラスタリングアルゴリズムを用いて複数のデータを少なくとも2つの異なるタイプの集合に統合する処理プロセスである。
一実施形態では、クラスタリングアルゴリズムは、K平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム、密度ベースのクラスタリングアルゴリズム、ガウス混合モデルを用いる期待値最大化クラスタリングアルゴリズム、凝集型階層的クラスタリングアルゴリズムのうちの少なくとも1つを含む。
文スコアリングモデルは、入力された文シーケンスに基づいて該文シーケンスの文スコアを決定する数理モデルである。
一実施形態では、該文スコアリングモデルは、文シーケンスが自然言語であるか否かを評価する。
一実施形態では、文スコアリングモデルは、ディープニューラルネットワーク(Deep Neural Network、DNN)モデル、回帰型ニューラルネットワーク(Recurrent Neural Networks、RNN)モデル、埋め込み(embedding)モデル、勾配ブースティング決定木(Gradient Boosting Decision Tree、GBDT)モデル、ロジスティック回帰(Logistic Regression、LR)モデルのうちの少なくとも1つを含むが、これらに限定されない。
DNNモデルは、深層学習フレームワークである。DNNモデルは、入力層、少なくとも1つの隠れ層(中間層とも呼ばれる)及び出力層を含む。代替的に、入力層、少なくとも1つの隠れ層(中間層とも呼ばれる)及び出力層は、いずれも受信したデータを処理する少なくとも1つのニューロンを含む。代替的に、異なる層間のニューロンの数は同じであってもよいし、異なってもよい。
RNNモデルは、フィードバック構造を有するニューラルネットワークである。RNNモデルにおいて、ニューロンの出力は、次のタイムスタンプで直接自身に作用することができ、即ち、第i層のニューロンのm時刻での入力は、(i-1)層のニューロンの該時刻での出力に加えて、その自身の(m-1)時刻での出力を含む。
embeddingモデルは、エンティティと関係との分散ベクトル表現に基づいて、各トリプルインスタンスにおける関係をエンティティヘッドからエンティティテールまでの翻訳と見なす。トリプルインスタンスは、主体、関係、客体を含み、トリプルインスタンスは、(主体,関係,客体)として表すことができ、主体は、エンティティヘッドであり、客体はエンティティテールである。例えば、張君の父が張さんであり、そしてトリプルインスタンスにより(張君,父,張さん)として表す。
GBDTモデルは、反復の決定木アルゴリズムであり、該アルゴリズムは複数の決定木で構成され、全ての木の結果が累積されて最終結果とされる。決定木の各ノードは、1つの予測値を取得し、年齢を例とすると、予測値は、年齢に対応するノードに属する全ての人の年齢の平均値である。
LRモデルは、線形回帰に基づいて論理関数を用いて構築されたモデルである。
ビームサーチ(英語:beam search)とは、グラフのヒューリスティック探索アルゴリズムである。自然言語復号化過程において、ビームサーチは、現在取得された文シーケンス集合(文ビームとも呼ばれる)を探索して、最終的に生成された出力シーケンスを取得する過程である。
ビームサイズ(beams size、BS)は、beam searchアルゴリズムにおける限定された文ビームの数である。
現在の復号化技術は、いずれもbeam searchに基づくものであり、文のコンテンツの差異を体現しないため、複数回の復号化後、常に全ての候補文シーケンスが同じタイプに入る傾向があり、通常、安全な出力シーケンス、即ち、文が流暢であるが、情報量が不足する出力シーケンスであり、例えば、「ハハ」、「なるほど」などの出力シーケンスである。
本願の実施形態は、入力シーケンスを符号化処理して文特徴ベクトルを取得し、文特徴ベクトルを復号化処理して第1の所定数の候補文シーケンスを取得し、第1の所定数の候補文シーケンスに対してクラスタリング及び選別を行って第2の所定数の候補文シーケンスを取得することにより、生成された複数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数の候補文シーケンスに基づいて生成された出力シーケンスが大きな多様性を持ち、関連技術における、対話システムから出力された出力シーケンスがいずれも安全な出力シーケンスである状況を回避し、ユーザの要求を効果的に満たし、文生成の正確性を向上させることができる文生成方法、装置、機器及び記憶媒体を提供する。
本願の実施形態に係る技術解決策の理解を容易にするために、まず、図1を参照しながら本願の例示的な一実施形態に係る適用シーンの概略構成図を説明する。
該適用シーンは、入力オブジェクト100と、深層学習に基づく電子機器200(以下、電子機器と略称する)とを含み、電子機器200は、入力オブジェクト100の入力シーケンスを取得してから、該入力シーケンスに応答して、出力シーケンスを生成し、出力シーケンスを該入力オブジェクト100に提示する文生成プロセスを実行する。
一実施形態では、入力シーケンスは、入力される処理対象の文シーケンスであり、出力シーケンスは、出力される処理済みの文シーケンスである。
一実施形態では、該文生成方法は、対話システム、機械翻訳システム、質問応答システム、自動創作システム又は読解システムに適用される。対話システムは、インターネット又はローカルデータベースから、ユーザが入力した応答対象文に対応する応答文を取得するものである。機械翻訳システムは、インターネット又はローカルデータベースから、ユーザが入力した翻訳対象文に対応する翻訳文を取得するものである。質問応答システムは、インターネット又はローカルデータベースから、ユーザが入力した質問文に対応する回答文を取得するものである。自動創作システムは、インターネット又はローカルデータベースから、ユーザが入力した、テーマを説明するテーマ文に対応するコンテンツ文を取得するものである。読解システムは、ユーザが提供する読み物を検索して、ユーザが入力した問題文に対応する答え文を取得するものである。
文生成方法が対話システムに適用される場合、入力シーケンスが応答対象文であり、出力シーケンスが応答文である。
文生成方法が機械翻訳システムに適用される場合、入力シーケンスが翻訳対象の第1の言語タイプの文であり、出力シーケンスが翻訳済みの第2の言語タイプの文であり、第1の言語タイプが第2の言語タイプと異なる。例示的には、第1の言語タイプは英語であり、第2の言語タイプは中国語である。
文生成方法が質問応答システムに適用される場合、入力シーケンスが質問文であり、出力シーケンスが回答文である。
文生成方法が自動創作システムに適用される場合、入力シーケンスがテーマ文であり、出力シーケンスがコンテンツ文である。
文生成方法が読解システムに適用される場合、入力シーケンスが問題文であり、出力シーケンスが答え文である。
一実現形態では、入力オブジェクト100は人間であってよく、電子機器200は、携帯電話、コンピュータなどの端末であってよく、上記文生成プロセスは、人間と端末との間で実現される。
一実施形態では、電子機器200に第1のアプリケーションプログラムがインストールされており、第1のアプリケーションプログラムは、文生成機能を持つアプリケーションプログラムである。例示的には、第1のアプリケーションプログラムは、質問応答、メッセージ自動応答、機械翻訳などの機能を持つアプリケーションプログラムである。
例えば、ユーザが文字又は音声入力により第1のアプリケーションプログラムに対して質問(入力シーケンス)を行い、第1のアプリケーションプログラムがユーザの問題に基づいて回答(出力シーケンス)を生成し表示する。
別の実現形態では、入力オブジェクト100はクライアントであってよく、電子機器200はサーバであり、上記文生成プロセスは、クライアントとサーバとの間で実現される。クライアントは、携帯電話、コンピュータなどを含むが、これらに限定されず、サーバは、様々な異なるサービスを提供できるサーバであってよく、サーバは、天気問い合わせ、業務相談、スマートカスタマーサービス(航空券サービス又はレストランサービス等に用いられる)等を含むが、これらに限定されない。
図2は、本願の例示的な一実施形態に係る電子機器のハードウェアの概略構成図である。図2に示すように、電子機器は、1つ以上のプロセッサ10、メモリ20及び通信インタフェース30を含む。当業者が理解できるように、図2に示す構成は、該電子機器を限定するものではなく、図示より多い又は少ない部品を含んでもよく、ある部品を組み合わせたり、異なる部品配置を有したりしてもよい。
1つ以上のプロセッサ10は、電子機器のコントロールセンターであり、様々なインタフェース及び配線を用いて電子機器全体の各部を接続し、メモリ20内に記憶されたソフトウェアプログラム及び/又はモジュールを動作させるか又は実行し、メモリ20内に記憶されたデータを呼び出すことにより、電子機器の様々な機能を実行しデータを処理して、電子機器全体を制御する。1つ以上のプロセッサ10は、CPUによって実現することができ、1つ以上のグラフィックスプロセッシングユニット(英語:Graphics Processing Unit、GPUと略称する)によって実現することもできる。
メモリ20は、ソフトウェアプログラム及びモジュールを記憶することができる。1つ以上のプロセッサ10は、メモリ20に記憶されたソフトウェアプログラム及びモジュールを動作させることにより、様々な機能アプリケーション及びデータ処理を実行する。メモリ20は、主にプログラム記憶領域とデータ記憶領域とを含んでよく、プログラム記憶領域は、オペレーティングシステム21、取得モジュール22、符号化モジュール23、復号化モジュール24、クラスタリングモジュール25、選別モジュール26、決定モジュール27及び少なくとも1つの機能に必要なアプリケーションプログラム28(例えば、ニューラルネットワークトレーニングなど)などを記憶でき、データ記憶領域は、電子機器の使用に応じて作成されたデータなどを記憶できる。メモリ20は、任意のタイプの揮発性又は不揮発性メモリ装置又はそれらの組み合わせにより実現することができ、例えば、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAMと略称する)、電気的消去可能プログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROMと略称する)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read Only Memory、EPROMと略称する)、プログラマブル読み取り専用メモリ(Programmable Read-Only Memory、PROMと略称する)、リードオンリーメモリ(Read Only Memory、ROMと略称する)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクが挙げられる。それに応じて、メモリ20は、1つ以上のプロセッサ10によるメモリ20へのアクセスを提供するためのメモリコントローラをさらに含んでよい。
ここで、1つ以上のプロセッサ10は、取得モジュール22を動作させることにより、入力シーケンスを取得する機能を実行し、1つ以上のプロセッサ10は、符号化モジュール23を動作させることにより、入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得する機能を実行し、1つ以上のプロセッサ10は、復号化モジュール24を動作させることにより、文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する機能を実行し、1つ以上のプロセッサ10は、クラスタリングモジュール25を動作させることにより、第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する機能を実行し、1つ以上のプロセッサ10は、選別モジュール26を動作させることにより、少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する機能を実行し、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さく、1つ以上のプロセッサ10は、決定モジュール27を動作させることにより、第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定する機能を実行する。
図3は、本願の例示的な一実施形態に係る文生成方法のフローチャートであり、該方法は、前述した適用シーンにおける電子機器を用いて実現することができ、図3を参照すると、該文生成方法は、以下のステップ301~306を含む。
ステップ301では、入力シーケンスを取得する。
一実施形態では、入力シーケンスは、入力されるテキストデータであるか、又は入力される音声データや、イメージデータを認識して得られるテキストデータである。
電子機器が入力シーケンスを取得するステップは、電子機器がテキストデータ(字、単語又はセンテンス)を受信し、テキストデータを入力シーケンスとして決定するステップを含んでよい。或いは、電子機器が音声データを受信し、音声データに対して音声認識を行ってテキストデータを得、音声認識により得られたテキストデータを入力シーケンスとして決定する。或いは、電子機器がイメージデータを受信し、イメージデータに対して光学文字認識を行ってテキストデータを得、認識により得られたテキストデータを入力シーケンスとして決定する。
ステップ302では、入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得する。
一実施形態では、文特徴ベクトルは、ベクトルシーケンス又は単一のベクトルである。
一実施形態では、電子機器が入力シーケンスを符号化処理して文特徴ベクトルを取得するステップは、電子機器が入力シーケンスを、少なくとも1つのベクトルを含むベクトルシーケンスに符号化するステップを含む。
例示的には、電子機器は、ベクトルシーケンスに符号化する場合、まず、入力シーケンスに対して単語分割処理を行って、少なくとも1つの単語を取得し、その後に、単語分割処理により取得された各単語をそれぞれ1つのベクトルに符号化して、ベクトルシーケンスを構成する。
別の実施形態では、電子機器は入力シーケンスを単一のベクトルに符号化する。
電子機器は、エンコーダを用いて入力シーケンスをベクトルに符号化することができ、エンコーダによって符号化されたベクトルは、例えば意図(確認、質問など)や、具体的な名前付きエンティティ(例えば、場所、時間など)などの、入力シーケンスのあらゆる面での情報を含む。
電子機器が入力シーケンスを単一のベクトルに符号化する場合、後続の入力シーケンスに対する処理が該ベクトルに対する処理に変換され、1つのベクトルシーケンスに対する処理に比べて、後続処理の複雑さを大幅に低減すると共に、1つのベクトルを用いて入力シーケンスを表すと、意味の完全性を向上させることができる。
なお、電子機器がベクトルを用いて入力シーケンスを表す場合、入力シーケンスの意味を表現できるようにするために、例えば5000次元のような高次元のベクトルを使用する必要があり、1つのベクトルシーケンスを用いて入力シーケンスを表す場合、ベクトルシーケンス中の各ベクトルが1つの単語のみを表すため、各ベクトルは、低次元のベクトルを使用することができる。
ステップ303では、文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する。
一実施形態では、電子機器は、文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する。候補文シーケンスは、少なくとも1つの復号化単語を含む。
第1の所定数は予め設定された数値であり、一実施形態では、第1の所定数値は、ユーザのカスタム設定又は端末のデフォルト設定である。例えば、第1の所定数は16又は24である。
なお、出力シーケンスが逐語に生成されるため、出力シーケンスの生成プロセスは、複数回の復号化処理を含み、毎回の復号化処理は、復号化、クラスタリング及び選別を含む。
一実施形態では、本願の実施形態では、復号化は、再編拡張とも呼ばれ、即ち、復号化プロセスは、第2の所定数の候補文シーケンスに基づいて復号化単語を拡張し、拡張した復号化単語を第2の所定数の候補文シーケンスと再編して、第1の所定数の候補文シーケンスを取得する処理プロセスであり、第1の所定数が第2の所定数より大きい。
クラスタリングは、復号化された第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する処理プロセスを含む。
選別は、クラスタリングして取得された少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選択する処理プロセスを含む。
ステップ304では、第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する。
一実施形態では、電子機器は、第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する。文シーケンス集合は、少なくとも1つの候補文シーケンスを含む。
一実施形態では、少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプは異なる。
一実施形態では、文特徴タイプは、候補文シーケンスの文流暢性及び/又は候補文シーケンスと入力シーケンスの間の関連度を示す。
ステップ305では、少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別し、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい。
一実施形態では、電子機器は、少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する。
一実施形態では、少なくとも2種類の文シーケンス集合の各種類の文シーケンス集合について、電子機器は、該文シーケンス集合から少なくとも1つの候補文シーケンスを選別して、第2の所定数の候補文シーケンスを構成する。
ステップ306では、第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定する。
一実施形態では、電子機器は、第2の所定数の候補文シーケンスから1つの候補文シーケンスを入力シーケンスに対応する出力シーケンスとして選択する。
一実施形態では、電子機器は、第2の所定数の候補文シーケンスから、予め設定された選択方略に従って、又はランダムに1つの候補文シーケンスを入力シーケンスに対応する出力シーケンスとして選択する。本実施形態は、これを限定しない。
以上より、本願の実施形態は、入力シーケンスを符号化処理して文特徴ベクトルを取得し、文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得し、第1の所定数の候補文シーケンスに対してクラスタリング及び選別を行って第2の所定数の候補文シーケンスを取得し、クラスタリング及び選別により取得された第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含むため、第2の所定数の候補文シーケンスに基づいて決定された出力シーケンスが大きな多様性を持ち、ユーザの要求を効果的に満たし、文生成効果を向上させる。
図4を参照すると、本願の別の例示的な実施形態に係る文生成方法のフローチャートを示す。該方法は、前述した適用シーンにおける電子機器を用いて実現することができ、図4を参照すると、該文生成方法は、以下のステップ401~408を含む。
ステップ401では、入力シーケンスを取得する。
一実施形態では、電子機器は、第1のアプリケーションプログラムにより、入力された文を取得し、入力された文に基づいて入力シーケンスを生成する。
ステップ402では、入力シーケンスを符号化処理して、入力シーケンスを表す文特徴ベクトルを取得する。
電子機器が入力シーケンスを符号化処理して文特徴ベクトルを取得するプロセスについては、上記実施形態における関連詳細を参照することができるため、ここでは説明を省略する。
ステップ403では、文特徴ベクトルに対してi回目の復号化を行って第1の所定数の候補文シーケンスを取得し、候補文シーケンスがi個の復号化単語を含み、iの初期値が1である。
一実施形態では、電子機器は、文特徴ベクトルに対して1回目の復号化を行って第2の所定数の候補文シーケンスを取得する。各候補文シーケンスは、1つの復号化単語を含む。
一実施形態では、iが1より大きい場合、電子機器が文特徴ベクトルに対してi回目の復号化を行って第2の所定数の候補文シーケンスを取得するステップは、i回目の復号化の場合、文特徴ベクトルとi-1回目の復号化によって取得された第2の所定数の候補文シーケンスとに基づいて、再編拡張を行って第1の所定数の候補文シーケンスを取得するステップであって、第1の所定数が第2の所定数より大きいステップを含む。
一実施形態では、i回目の復号化の場合、i-1回目の復号化によって取得された第2の所定数の候補文シーケンス中の少なくとも1つの候補文シーケンスについて、電子機器は該候補文シーケンスに再編拡張を行って拡張された複数の候補文シーケンスを取得する。
一実施形態では、第1の所定数は、予め設定された、第2の所定数より大きい数値であり、例示的には、第1の所定数は第2の所定数のm倍であり、mが1より大きい正の整数である。
ステップ404では、第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する。
電子機器が第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップの前に、さらに、第1の所定数の候補文シーケンスに対して、候補文シーケンス中の重複する単語を排除するための重複排除処理を行うステップを含んでよい。
一実施形態では、電子機器が第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2タイプのシーケンスセットを取得するステップは、第1の所定数の候補文シーケンスを、所定のクラスタリングアルゴリズムを用いてクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップを含む。
ここで、所定のクラスタリングアルゴリズムは、K平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム、密度ベースのクラスタリングアルゴリズム、ガウス混合モデルを用いる期待値最大化クラスタリングアルゴリズム、凝集型階層的クラスタリングアルゴリズムのうちの少なくとも1つを含む。
なお、本実施形態では、端末に使用される、所定のクラスタリングアルゴリズムのタイプを限定せず、以下、所定のクラスタリングアルゴリズムがK平均クラスタリングアルゴリズムであることを例として説明する。
少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプは異なる。
一実施形態では、文特徴タイプは、候補文シーケンスの文流暢性及び/又は候補文シーケンスと入力シーケンスとの間の関連度を示す。
一実施形態では、文特徴タイプが第1の文特徴タイプ、第2の文特徴タイプ及び第3の文特徴タイプのうちの少なくとも1つを含む。
第1の文特徴タイプは、候補文シーケンスが安全な出力シーケンスであることを示すためのものであり、安全な出力シーケンスは、流暢で安全な出力シーケンスとも呼ばれる。即ち、該候補文シーケンスの文流暢性が流暢閾値より高く、該候補文シーケンスと入力シーケンスとの間の関連度が関連閾値以下である。
第2の文特徴タイプは、候補文シーケンスが流暢でない出力シーケンスであることを示すためのものであり、即ち、該候補文シーケンスの文流暢性が流暢閾値以下である。
第3の文特徴タイプは、候補文シーケンスが流暢でかつ的確性を有する出力シーケンスであることを示すためのものであり、即ち、該候補文シーケンスの文流暢性が流暢閾値より高く、かつ該候補文シーケンスと入力シーケンスとの間の関連度が関連閾値より大きい。
一実施形態では、流暢閾値又は関連閾値は、ユーザのカスタム設定又は端末のデフォルト設定である。本実施形態は、これを限定しない。
なお、電子機器がクラスタリングする際に用いる文特徴タイプと、クラスタリングして取得した文シーケンス集合の数とは、いずれも調整可能であり、本実施形態はこれを限定しない。
例えば、少なくとも2種類の文シーケンス集合は、3タイプの文シーケンス集合を含み、第1のタイプの文シーケンス集合は、複数の第1の文特徴タイプの候補文シーケンスを含み、第1の文特徴タイプは、候補文シーケンスが安全な文シーケンスであることを示すためのものであり、第2のタイプの文シーケンス集合は、複数の第2の文特徴タイプの候補文シーケンスを含み、第2の文特徴タイプは、候補文シーケンスが流暢でない文シーケンスであることを示すためのものであり、第3のタイプの文シーケンス集合は、複数の第3の文特徴タイプの候補文シーケンスを含み、第3の文特徴タイプは、候補文シーケンスが流暢でかつ的確性を有する文シーケンスであることを示すためのものである。
ステップ405では、少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別し、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい。
一実施形態では、電子機器が少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するステップは、少なくとも2種類の文シーケンス集合の各種類の文シーケンス集合について、文シーケンス集合中の複数の候補文シーケンスをソートするステップと、文シーケンス集合中の、ソートした上位N個の候補文シーケンスを取得するステップであって、Nは正の整数であるステップとを含む。
一実施形態では、少なくとも2種類の文シーケンス集合の各種類の文シーケンス集合について、電子機器は、予め設定された指標に従って該文シーケンス集合中の複数の候補文シーケンスをソートする。例示的には、予め設定された指標は、情報エントロピーを含む。
一実施形態では、電子機器は、クラスタリングしてKタイプの文シーケンス集合を取得した後、Kタイプの文シーケンス集合の各種類の文シーケンス集合から、ソートした上位N個の候補文シーケンスを取得し、K*N個の候補文シーケンスを取得し、ここで、K*Nは第2の所定数である。
ステップ406では、i回目の復号化によって取得された復号化単語に予測された終了単語が含まれない場合、iに1を加算し、文特徴ベクトルに対してi回目の復号化を行って第1の所定数の候補文シーケンスを取得するステップを継続して実行する。
一実施形態では、予測された終了単語は、復号化を終了するために設定されたキーワードである。例示的には、終了単語は「end」である。
i回目の復号化によって取得された復号化単語に予測された終了単語が含まれない場合、電子機器は、i回目に取得した第2の所定数の候補文シーケンス(即ち、i回目の復号化、クラスタリング及び選別がなされた第2の所定数の候補文シーケンス)を次回(即ち、今回の次回)の復号化の入力とすると共に、現在のiに1を加算して新たなi回目として、上記ステップ403~ステップ405を継続して実行する。
ステップ407では、i回目の復号化によって取得された復号化単語に予測された終了単語が含まれる場合、i回目の復号化、クラスタリング及び選別がなされた第2の所定数の候補文シーケンスを取得する。
i回目の復号化によって取得された復号化単語に予測された終了単語が含まれる場合、電子機器は、i回目の復号化、クラスタリング及び選別がなされた第2の所定数の候補文シーケンスを取得し、かつステップ408を実行する。
ステップ408では、取得した第2の所定数の候補文シーケンスに基づいて、出力シーケンスを決定する。
理解できるように、ステップ408での第2の所定数の候補文シーケンスは、即ち、最終回の復号化により取得された第1の所定数の候補文シーケンスに対してステップ404とステップ405とを実行して取得されたものである。
一実施形態では、電子機器が取得された第2の所定数の候補文シーケンスに基づいて出力シーケンスを決定するステップは、文スコアリングモデルを取得するステップであって、文スコアリングモデルは、サンプル文シーケンスに基づいてトレーニングして得られた文評価ルールを表すためのものである、ステップと、第2の所定数の候補文シーケンスの各候補文シーケンスを文スコアリングモデルに入力して文スコアを取得するステップであって、文スコアは候補文シーケンスの文品質を示すためのものである、ステップと、第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、出力シーケンスを決定するステップと、を含む。
一実施形態では、文スコアリングモデルは、サンプル文シーケンスに基づいてニューラルネットワークをトレーニングして得られたモデルである。該文スコアリングモデルは、文シーケンスの文品質を評価するために用いられる。例示的には、文品質は、文流暢性を含む。
一実施形態では、該文スコアリングモデルは、文シーケンスが自然言語であるか否かを評価するために用いられる。
電子機器が端末である場合、文スコアリングモデルは、端末が予めトレーニングしかつ自身に記憶するものであってもよいし、サーバが予めトレーニングした後に端末に送信するものであってもよい。
電子機器がサーバである場合、文スコアリングモデルは、サーバが予めトレーニングしかつサーバに記憶するものである。本実施形態は、これを限定しない。以下、サーバが文スコアリングモデルをトレーニングすることを例としてモデルトレーニングプロセスを説明する。
サーバが文スコアリングモデルをトレーニングするプロセスは、トレーニングサンプルセットを取得するステップであって、トレーニングサンプルセットが少なくとも1組のサンプルデータ組を含むステップと、少なくとも1組のサンプルデータ組に対して、誤差逆伝播アルゴリズムを用いてトレーニングを行って、文スコアリングモデルを取得するステップと、を含む。各サンプルデータ組は、サンプル文シーケンスと予めアノテーションされた正しい文スコアとを含む。
サーバが少なくとも1組のサンプルデータ組に対して、誤差逆伝播アルゴリズムを用いてトレーニングを行って、文スコアリングモデルを取得するステップは、以下のステップ1~3を含むが、これらに限定されない。
ステップ1では、少なくとも1組のサンプルデータ組の各サンプルデータ組について、サンプル文シーケンスを元のパラメータモデルに入力して、トレーニング結果を取得する。
一実施形態では、元のパラメータモデルは、ニューラルネットワークモデルに基づいて構築されたものであり、例えば、元のパラメータモデルは、CNNモデル、DNNモデル、RNNモデル、埋め込みモデル、GBDTモデル、LRモデルのうちの少なくとも1つを含むが、これらに限定されない。
例示的には、各サンプルデータ組について、サーバは、該サンプルデータ組に対応する入出力ペアを作成し、入出力ペアの入力パラメータが該サンプルデータ組中のサンプル文シーケンスであり、出力パラメータが該サンプルデータ組中の正しい文スコアであり、サーバは入力パラメータを元のパラメータモデルに入力して、トレーニング結果を取得する。
例えば、サンプルデータ組がサンプル文シーケンスAと正しい文スコア「文スコア1」とを含み、端末が作成した入出力ペアは、(サンプル文シーケンスA)->(文スコア1)であり、ここで、(サンプル文シーケンスA)が入力パラメータであり、(文スコア1)が出力パラメータである。
一実施形態では、入出力ペアは、特徴ベクトルにより表される。
ステップ2では、各サンプルデータ組について、トレーニング結果と正しい文スコアとを比較して、計算損失を取得し、計算損失は、トレーニング結果と正しい文スコアとの間の誤差を示す。
一実施形態では、計算損失は交差エントロピー(英語:cross-entropy)により表される。
一実施形態では、端末は下式により計算して計算損失H(p,q)を取得する。
Figure 0007290730000001
ここで、p(x)とq(x)は、長さが等しい離散分布ベクトルであり、p(x)はトレーニング結果を表し、q(x)は出力パラメータを表し、xはトレーニング結果又は出力パラメータの1つのベクトルである。
ステップ3では、少なくとも1組のサンプルデータ組それぞれに対応する計算損失に基づいて、誤差逆伝播アルゴリズムを用いてトレーニングして、文スコアリングモデルを取得する。
一実施形態では、端末は、逆伝播アルゴリズムを用い、計算損失に基づいて文スコアリングモデルの勾配方向を決定し、文スコアリングモデルの出力層から層ごとに前に文スコアリングモデルのモデルパラメータを更新する。
一実施形態では、第2の所定数の候補文シーケンスの各候補文シーケンスについて、電子機器は、候補文シーケンスを文スコアリングモデルに入力して文スコアを算出する。
ここで、文スコアリングモデルは、少なくとも1組のサンプルデータ組に基づいてトレーニングして得られたものであり、各サンプルデータ組は、サンプル文シーケンスと予めアノテーションされた正しい文スコアとを含む。
一実施形態では、文スコアは、候補文シーケンスの文品質を示すために用いられる。例示的には、文品質は、文流暢性を含む。
一実施形態では、文スコアと候補文シーケンスの文品質とは負の相関関係にあり、即ち、文スコアが低いほど、該候補文シーケンスの文品質が高く、文流暢性が高く、文スコアが高いほど、該候補文シーケンスの文品質が低く、文流暢性が低い。
一実施形態では、候補文シーケンスの文スコアがスコア閾値より低い場合、該候補文シーケンスが自然文であることを示す。
スコア閾値は、ユーザのカスタム設定又は端末のデフォルト設定であり、本実施形態はこれを限定しない。
一実施形態では、文スコアと候補文シーケンスの文品質とが負の相関関係にある場合、電子機器は、第2の所定数の候補文シーケンスそれぞれに対応する文スコアのうちの最も低い文スコアを決定し、最も低い文スコアに対応する候補文シーケンスを出力シーケンスとして決定する。
一実施形態では、電子機器が出力シーケンスを生成した後に、入力シーケンスと対応する出力シーケンスとが電子機器に表示される。
例示的には、上記実施形態に係る文生成方法に対応するアルゴリズムは、以下のとおりである。
Input:Beam size BS,Candidates C initialized with
start symbol
Output:Final response rsp
Data:Language model threshold lmth
while Number of completed hypothesis does not
reach BS or maximum decoding step is not reached
do
for i in BS do
tmpHyps=Top-N(Extend(C[i]),BS×2);
Remove hyps in tmpHups with repeated
N-grams or UNK;
Save tmpHyps to extended candidates;
end
Perform K-means over extended candidates;
for candidates in each cluster do
Sort candidates by partial log-prob in R;
Choose top BS/K candidates;
Put candidates with end symbol in R;
Put incomplete candidates in Cnew
end
C←Cnew
end
Sort R according to log-prob scores;
for hyp in R do
if socrelm(hyp)<lmth then
rsp←hyp;
break;
end
end
ここで、BSは第2の所定数であり、Cは入力シーケンスに対応する文特徴ベクトルを含み、rspは出力シーケンスを表し、socrelm(hyp)は文スコアであり、lmthはスコア閾値であり、hypは候補文シーケンスを表し、Kは文シーケンス集合の数であり、Rは候補文シーケンスの集合を表し、K-meansはK平均クラスタリングアルゴリズムを表す。
例示的な例では、電子機器は入力シーケンスaを取得し、入力シーケンスaを符号化処理して文特徴ベクトルAを取得し、電子機器は文特徴ベクトルAに対して1回目の復号化を行って8個の候補文シーケンスを取得し、図5に示すように、電子機器の2回目の復号化のプロセスを示し、白い円は第1の文特徴タイプの候補文シーケンス(例えば、安全な候補文シーケンス)を表し、黒い円は第2の文特徴タイプの候補文シーケンス(例えば、流暢でかつ的確性を有する候補文シーケンス)を表す。1、電子機器は、文特徴ベクトルと1回目の復号化によって取得された8個の候補文シーケンスに基づいて、再編拡張を行って16個の候補文シーケンスを取得する。2、電子機器は、16個の候補文シーケンスをクラスタリングして2タイプの文シーケンス集合、即ち、第1のタイプの文シーケンス集合と第2のタイプの文シーケンス集合とを取得し、第1のタイプの文シーケンス集合は、8個の安全な候補文シーケンスを含み、第2のタイプの文シーケンス集合は、8個の流暢でかつ的確性を有する候補文シーケンスを含む。3、電子機器は、第1のタイプの文シーケンス集合から、4個の安全な候補文シーケンスを選別し、かつ第2のタイプの文シーケンス集合から4個の流暢でかつ的確性を有する候補文シーケンスを選別して、8個の候補文シーケンスを取得する。4、電子機器は、所定の終了条件を受信するまで、取得した8個の候補文シーケンスに基づいて次回の復号化を行う。ここで、次回の復号化は、類似して上記2回目の復号化のプロセスを参照すればよい。
以上より、本願の実施形態は、さらに、電子機器により文スコアリングモデルを取得し、第2の所定数の候補文シーケンスの各候補文シーケンスを文スコアリングモデルに入力して文スコアを取得し、複数の候補文シーケンスそれぞれに対応する文スコアに基づいて出力シーケンスを生成し、文スコアリングモデルがサンプル文シーケンスに基づいてトレーニングして得られた文評価ルールを表すため、決定された文スコアは、該候補文シーケンスの文品質を正確に反映することができ、さらに、生成された出力シーケンスの文品質を確保する。
上記文生成方法が対話システムに適用される場合、図6を参照すると、該文生成方法は、以下のステップ601~608を含む。
ステップ601では、電子機器は対話アプリケーションプログラムにより入力された応答対象文を取得する。
一実施形態では、対話アプリケーションプログラムがフォアグラウンドで動作する場合、音声形式又はテキスト形式で入力された応答対象文を受信する。
ここで、対話アプリケーションプログラムは、電子機器にインストールされ、マンマシン対話機能を有するアプリケーションプログラムである。一実施形態では、対話アプリケーションプログラムは、入力された応答対象文に応答するために用いられる。
ステップ602では、電子機器は応答対象文に基づいて入力シーケンスを生成する。
一実施形態では、応答対象文がテキスト形式で入力される場合、応答対象文を入力シーケンスとして決定する。
別の実施形態では、応答対象文が音声形式で入力される場合、音声認識アルゴリズムを用いて応答対象文をテキストデータに変換し、変換後のテキストデータを入力シーケンスとして決定する。
ステップ603では、電子機器は入力シーケンスを符号化処理して文特徴ベクトルを取得する。
ステップ604では、電子機器は文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する。
ステップ605では、電子機器は第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得する。
ステップ606では、電子機器は、少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別し、第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含み、第2の所定数が第1の所定数より小さい。
ステップ607では、電子機器は第2の所定数の候補文シーケンスに基づいて、入力シーケンスに対応する出力シーケンスを決定する。
なお、電子機器がステップ603~ステップ607を実行するプロセスについては、上記実施形態における関連詳細を参照することができるため、ここでは説明を省略する。
ステップ608では、電子機器は出力シーケンスに基づいて応答文を生成し、対話アプリケーションプログラムにより応答文を表示する。
一実施形態では、電子機器は出力シーケンスを応答文として決定し、対話アプリケーションプログラムの対話インタフェースに該応答文をテキスト又は音声の形式で表示する。
上記文生成方法が機械翻訳システムに適用される場合、図7を参照すると、上記ステップ601と602は、以下の幾つかのステップとして置き換えられ、実現されてよい。
ステップ701では、電子機器は、翻訳アプリケーションプログラムにより入力された翻訳対象文を取得する。
一実施形態では、翻訳アプリケーションプログラムがフォアグラウンドで動作する場合、音声形式又はテキスト形式で入力された翻訳対象文を受信する。
ここで、翻訳アプリケーションプログラムは、電子機器にインストールされ、翻訳機能を有するアプリケーションプログラムである。一実施形態では、翻訳アプリケーションプログラムは、入力された翻訳対象文を翻訳するために用いられる。
ここで、翻訳対象文は翻訳対象となる第1の言語タイプの文である。
ステップ702では、電子機器は翻訳対象文に基づいて入力シーケンスを生成する。
一実施形態では、翻訳対象文がテキスト形式で入力される場合、翻訳対象文を入力シーケンスとして決定する。
別の実施形態では、翻訳対象文が音声形式で入力される場合、音声認識アルゴリズムを用いて翻訳対象文をテキストデータに変換し、変換後のテキストデータを入力シーケンスとして決定する。
それに応じて、上記ステップ608は、以下のステップ708として置き換えられ、実現されてよい。
ステップ708では、電子機器は、出力シーケンスに基づいて翻訳文を生成し、対話アプリケーションプログラムにより翻訳文を表示する。
ここで、翻訳文が翻訳対象となる第1の言語タイプの文に対応する、翻訳済みの第2の言語タイプの文であり、ここで、第1の言語タイプが第2の言語タイプと異なる。例示的には、第1の言語タイプは英語であり、第2の言語タイプは中国語である。
一実施形態では、電子機器は出力シーケンスを翻訳文として決定し、翻訳アプリケーションプログラムの翻訳インタフェースに該翻訳文をテキスト又は音声の形式で表示する。
なお、文生成方法が質問応答システム、自動創作システム又は読解システムに適用される場合、当業者は、類似して文生成方法が対話システム又は機械翻訳システムに適用される場合の上記対応するステップを参照することができるため、ここでは説明を省略する。
本願の各実施形態における文生成方法を実現するためのシステムは、DSTC7(7th Dialog System Technology Challenge、第7回対話システム技術チャレンジ)において第1位を獲得した。具体的なデータは、表1及び表2に示すとおりである。ただし、表1は、自動化評価の結果である。表2は、人工評価の結果である。
Figure 0007290730000002
表1において、合計2208個の試験サンプルを有する。DSTC7の組織者は、以下の3つのベースライン(対照群)を提供する。(1)一定:常に「何を言ってるかわからない。」と回答すること。(2)ランダム:トレーニングデータから1つの解答をランダムに選択すること。(3)seq2seq(シーケンスツーシーケンス):Vanilla Kerasシーケンスツーシーケンスモデルを用いてトレーニングすること。チームC/E及びチームGは、今回の競争の他の2つのチームに使用されるシステムである。正式評価を行うために、本発明者らは2つのシステムを提出し、1つのシステムはK平均値ビームサーチを使用した主なシステムであり、もう1つのシステムはK平均値ビームサーチを使用しない補助システムである。また、人(Human)の応答と比較する。全ての応答出力は、いずれも以下の指標を用いて採点し、これらの指標は、それぞれNIST(Dod-dingtonが2002年に提案した機械翻訳評価指標)、BLEU(Papineniらが2002年に提案した)、Me-teor(Denkowski及びLavieが2014年に提案した)、DIV-1、DIV-2(distinct-1及びdistinct-2とも呼ばれる)(Liらが2016年に提案した)及びEntropy1-4(Zhangらが2018年に提案した)である。
表1に示すように、本発明者らのシステムは、NIST-4、BLEU-4及びMeteorの主要指標を使用して評価し、いずれも最適な結果を取得する。また、K平均値ビームサーチを使用すると、ほぼ全ての主要なアルゴリズム及び全てのダイバーシティ指標の性能を効果的に向上させることができる。平均応答長さについて、本発明者らのシステムが生じた応答はseq2seqのベースラインより長い。また、K平均値ビームサーチを使用しないシステムに比べて、K平均値ビームサーチを使用するシステムは、応答時間がより長い。平均から論ずれば、人の応答時間は本発明者らのシステムより長く、Gチームが平均して22個のトークンで生じた応答時間はさらに長い。前の100kの語彙表に含まれないOOV(未知語)を出力する能力について、本発明者らのシステムは、それぞれK平均値ビームサーチ及び従来のビームサーチを用いて、提出した試験応答に97及び57個の唯一のOOV(未知語)を生成する。従来のビームサーチに比べて、K平均値ビームサーチは、より多くのOOV(未知語)をコピーすることができる。
Figure 0007290730000003
表2において、DSTC7の組織者により1k個の試験サンプルを入念に選択して競技試験を行い、さらに人力で結果を評価する。表2に示すように、人力評価は、「相関性と適切性」及び「興味と情報性」という2つのカテゴリから評価する。seq2seqのベースラインに比べて、本発明者らのシステムは、95%の信頼区間レベルでベースラインを明らかに超える。また、2位のチームに比べて、本発明者らのシステムは「興味及び情報量」のカテゴリにおいて95%の信頼区間で最適な結果を取得する。まとめると、本発明者らのシステムは、競合において1位を勝ち取る。
以下、本願の装置の実施形態であり、本願の方法の実施形態を実行するために用いられることができる。本願の装置の実施形態に開示されない詳細について、本願の方法の実施形態を参照する。
図8を参照すると、本願の例示的な一実施形態に係る文生成装置の概略構成図を示す。該文生成装置は、専用ハードウェア回路、又はソフトウェアとハードウェアとの組み合わせにより、図1又は図2における電子機器の全部又は一部となるように実現されてよく、該文生成装置は、取得モジュール810、符号化モジュール820、復号化モジュール830、クラスタリングモジュール840、選別モジュール850及び決定モジュール860を含む。
取得モジュール810は、上記ステップ301又は401を実行する。
符号化モジュール820は、上記ステップ302又は402を実行する。
復号化モジュール830は、上記ステップ303を実行する。
クラスタリングモジュール840は、上記ステップ304又は404を実行する。
選別モジュール850は、上記ステップ305又は405を実行する。
決定モジュール860は、上記ステップ306を実行する。
一実施形態では、復号化モジュール830は、さらに、上記ステップ403を実行する。
決定モジュール860は、さらに、上記ステップ406及びステップ407の1つ、並びに、ステップ408を実行する。
一実施形態では、クラスタリングモジュール840は、さらに、第1の所定数の候補文シーケンスを、所定のクラスタリングアルゴリズムを用いてクラスタリングして、少なくとも2種類の文シーケンス集合を取得し、少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプが異なり、
ここで、所定のクラスタリングアルゴリズムは、K平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム、密度ベースのクラスタリングアルゴリズム、ガウス混合モデルを用いる期待値最大化クラスタリングアルゴリズム、凝集型階層的クラスタリングアルゴリズムのうちの少なくとも1つを含む。
一実施形態では、文特徴タイプは、第1の文特徴タイプ、第2の文特徴タイプ及び第3の文特徴タイプのうちの少なくとも1つを含み、
第1の文特徴タイプは、候補文シーケンスが安全な文シーケンスであることを示すためのものであり、
第2の文特徴タイプは、候補文シーケンスが流暢でない文シーケンスであることを示すためのものであり、
第3の文特徴タイプは、候補文シーケンスが流暢でかつ的確性を有する文シーケンスであることを示すためのものである。
一実施形態では、決定モジュール860は、さらに、サンプル文シーケンスに基づいてトレーニングして得られた文評価ルールを表すための文スコアリングモデルを取得し、第2の所定数の候補文シーケンスの各候補文シーケンスを文スコアリングモデルに入力して、候補文シーケンスの文品質を示すための文スコアを取得し、第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、出力シーケンスを決定する。
一実施形態では、文スコアと候補文シーケンスの文品質とは負の相関関係にあり、決定モジュール860は、さらに、第2の所定数の候補文シーケンスそれぞれに対応する文スコアのうちの最も低い文スコアを決定し、最も低い文スコアに対応する候補文シーケンスを出力シーケンスとして決定する。
一実施形態では、決定モジュール860は、さらに、それぞれサンプル文シーケンスと予めアノテーションされた正しい文スコアとを含む少なくとも1組のサンプルデータ組を含むトレーニングサンプルセットを取得し、少なくとも1組のサンプルデータ組に基づいて、誤差逆伝播アルゴリズムを用いて元のパラメータモデルをトレーニングし、文スコアリングモデルを取得する。
一実施形態では、選別モジュール850は、さらに、少なくとも2種類の文シーケンス集合の各種類の文シーケンス集合について、文シーケンス集合中の複数の候補文シーケンスをソートし、
文シーケンス集合中の、ソートした上位N個の候補文シーケンスを取得し、Nは正の整数である。
一実施形態では、該装置は、さらに重複排除モジュールを含む。該重複排除モジュールは、第1の所定数の候補文シーケンスに対して、候補文シーケンス中の重複する単語を排除するための重複排除処理を行う。
一実施形態では、文生成方法が対話システムに適用される場合、入力シーケンスが応答対象文であり、出力シーケンスが応答文であり、
文生成方法が機械翻訳システムに適用される場合、入力シーケンスが翻訳対象の第1の言語タイプの文であり、出力シーケンスが翻訳済みの第2の言語タイプの文であり、ここで、第1の言語タイプが第2の言語タイプと異なり、
文生成方法が質問応答システムに適用される場合、入力シーケンスが質問文であり、出力シーケンスが回答文であり、
文生成方法が自動創作システムに適用される場合、入力シーケンスがテーマ文であり、出力シーケンスがコンテンツ文であり、
文生成方法が読解システムに適用される場合、入力シーケンスが問題文であり、出力シーケンスが答え文である。
一実施形態では、取得モジュール810は、さらに、対話アプリケーションプログラムにより入力された応答対象文を取得し、応答対象文に基づいて入力シーケンスを生成し、
該装置は、さらに、出力シーケンスに基づいて応答文を生成し、対話アプリケーションプログラムにより応答文を表示するための表示モジュールを含む。
関連詳細については、図3~図7に示す方法の実施形態を参照することができる。ここで、取得モジュール810は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、取得ステップに関連する機能を実現し、符号化モジュール820は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、符号化ステップに関連する機能を実現し、復号化モジュール830は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、復号化ステップに関連する機能を実現し、クラスタリングモジュール840は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、クラスタリングステップに関連する機能を実現し、選別モジュール850は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、選別ステップに関連する機能を実現し、決定モジュール860は、さらに、上記方法の実施形態における他の任意の示唆又は開示された、決定ステップに関連する機能を実現する。
なお、上記実施形態に係る装置がその機能を実現する場合に、上記各機能モジュールの分割を例として説明したのみであり、実際の応用において、必要に応じて上記機能を割り当てて異なる機能モジュールにより完了し、つまり、装置の内部構成を異なる機能モジュールに分割して、以上に説明した全て又は一部の機能を完了することができる。また、上記実施形態に係る装置と方法の実施形態は、同じ構想に属し、それらの具体的な実現プロセスの詳細について、方法の実施形態を参照すればよいため、ここでは説明を省略する。
図9は、本願の例示的な一実施形態に係る端末900の構成ブロック図を示す。該端末900は、スマートフォン、タブレットコンピュータ、MP3プレーヤー(Moving Picture Experts Group Audio Layer III、ムービングピクチャーエクスパーツグループオーディオレイヤー3)、MP4(Moving Picture Experts Group Audio Layer IV、ムービングピクチャーエクスパーツグループオーディオレイヤー4)プレーヤー、ノート型パーソナルコンピュータ又はデスクトップコンピュータであってよい。端末900は、ユーザ機器、携帯端末、ラップトップ型端末、デスクトップ端末などの他の名称と呼ばれることもある。
一般的に、端末900は、1つ以上のプロセッサ901及びメモリ902を含む。
1つ以上のプロセッサ901は、1つ以上の処理コアを含んでよく、例えば1つ以上の4コアプロセッサや、1つ以上の8コアプロセッサなどである。1つ以上のプロセッサ901は、DSP(Digital Signal Processing、デジタル信号処理)、FPGA(Field-Programmable Gate Array、フィールドプログラマブルゲートアレイ)、PLA(Programmable Logic Array、プログラマブルロジックアレイ)のうちの少なくとも1つのハードウェアの形態で実現されてよい。1つ以上のプロセッサ901は、アウェイク状態でのデータを処理するための、CPU(Central Processing Unit、中央処理装置)とも呼ばれる1つ以上のホストプロセッサと、スタンバイ状態でのデータを処理するための低消費電力の1つ以上のコプロセッサとを含んでもよい。一部の実施形態では、1つ以上のプロセッサ901には、ディスプレイに表示されるコンテンツのレンダリング及びプロットを司るためのGPU(Graphics Processing Unit、グラフィックスプロセッシングユニット)が集積されてよい。一部の実施形態では、1つ以上のプロセッサ901は、機械学習に関する演算操作を処理するための1つ以上のAI(Artificial Intelligence、人工知能)プロセッサをさらに含んでもよい。
メモリ902は、非一時的であってよい1つ以上のコンピュータ可読記憶媒体を含んでよい。メモリ902は、高速ランダムアクセスメモリ及び1つ以上のディスク記憶装置、フラッシュメモリ記憶装置のような不揮発性メモリをさらに含んでよい。一部の実施形態では、メモリ902の非一時的コンピュータ可読記憶媒体は、1つ以上のプロセッサ901によって実行されると、本願における方法の実施形態に係る文生成方法が実現されるための少なくとも1つのコンピュータ可読命令を記憶する。
一部の実施形態では、端末900は、代替的に、周辺機器インタフェース903及び少なくとも1つの周辺機器をさらに含む。1つ以上のプロセッサ901と、メモリ902と、周辺機器インタフェース903とは、バス又は信号線を介して接続することができる。各周辺機器は、バス、信号線又は回路基板を介して周辺機器インタフェース903に接続されることができる。具体的には、周辺機器は、無線周波数回路904、タッチディスプレイ905、カメラ906、オーディオ回路907、測位コンポーネント908及び電源909のうちの少なくとも1つを含む。
周辺機器インタフェース903は、I/O(Input/Output、入力/出力)に関する少なくとも1つの周辺機器を1つ以上のプロセッサ901及びメモリ902に接続することができる。一部の実施形態では、1つ以上のプロセッサ901、メモリ902及び周辺機器インタフェース903は、同一のチップ又は回路基板に集積され、一部の他の実施形態では、1つ以上のプロセッサ901、メモリ902及び周辺機器インタフェース903のいずれか1つ又は2つは、個別のチップ又は回路基板上で実現されてよく、本実施形態は、これを限定しない。
無線周波数回路904は、電磁信号とも呼ばれるRF(Radio Frequency、無線周波数)信号を送受信する。
ディスプレイ905は、UI(User Interface、ユーザインタフェース)を表示する。該UIは、図形、テキスト、アイコン、ビデオ及びそれらの任意の組み合わせを含んでよい。ディスプレイ905がタッチディスプレイである場合、ディスプレイ905は、ディスプレイ905の表面又は表面の上方のタッチ信号を収集する機能をさらに有する。該タッチ信号は、制御信号として1つ以上のプロセッサ901に入力されて処理されてよい。この場合、ディスプレイ905は、さらに仮想ボタン及び/又は仮想キーボードを提供することができ、ソフトボタン及び/又はソフトキーボードとも呼ばれる。
カメラコンポーネント906は、画像又はビデオを収集する。代替的に、カメラコンポーネント906は、フロントカメラ及びリアカメラを含む。一般的に、フロントカメラは、端末のフロントパネルに設けられ、リアカメラは、端末の背面に設けられる。
オーディオ回路907は、マイクロフォン及びスピーカを含んでよい。マイクロフォンは、ユーザ及び環境の音波を収集し、音波を電気信号に変換して1つ以上のプロセッサ901に入力して処理するか、又は無線周波数回路904に入力して音声通信を実現する。
測位コンポーネント908は、端末900の現在の地理的位置を測位して、ナビゲーション又はLBS(Location Based Service、位置情報サービス)を実現する。
電源909は、端末900内の各コンポーネントに電力を供給する。電源909は、交流電源、直流電源、使い捨て電池又は充電式電池であってよい。
一部の実施形態では、端末900は、1つ以上のセンサ910をさらに含む。該1つ以上のセンサ910は、加速度センサ911、ジャイロセンサ912、圧力センサ913、指紋センサ914、光学センサ915及び近接センサ916を含むが、これらに限定されない。
加速度センサ911は、端末900で作成した座標系の3つの座標軸における加速度の大きさを検出することができる。
ジャイロセンサ912は、端末900の機体方向及び回転角度を検出することができ、加速度センサ911と協働してユーザの端末900に対する3D動作を収集することができる。
圧力センサ913は、端末900のサイドフレーム及び/又はタッチディスプレイ905の下層に設けられてよい。圧力センサ913が端末900のサイドフレームに設けられる場合、ユーザの端末900に対する把持信号を検出することができ、1つ以上のプロセッサ901は圧力センサ913によって収集された把持信号に基づいて左手及び右手の認識又はショートカット操作を行う。圧力センサ913がタッチディスプレイ905の下層に設けられる場合、1つ以上のプロセッサ901は、ユーザのタッチディスプレイ905に対する押圧操作に応じて、UIインタフェース上の操作可能なコントロールへの制御を実現する。
指紋センサ914は、ユーザの指紋を収集し、1つ以上のプロセッサ901が、指紋センサ914によって収集された指紋に基づいてユーザのアイデンティティを認識するか、或いは、指紋センサ914が、収集した指紋に基づいてユーザのアイデンティティを認識する。
光学センサ915は、環境光の強度を収集する。一実施形態では、1つ以上のプロセッサ901は、光学センサ915によって収集された環境光の強度に応じて、タッチディスプレイ905の表示輝度を制御することができる。
近接センサ916は、距離センサとも呼ばれ、一般的に、端末900のフロントパネルに設けられる。近接センサ916は、ユーザと端末900の正面との間の距離を収集する。
当業者が理解できるように、図9に示す構造は、端末900を限定するものではなく、図示より多い又は少ないコンポーネントを含んでもよく、あるコンポーネントを組み合わせてもよく、異なるコンポーネント配置を用いてもよい。
図10を参照すると、本願の例示的な一実施形態に係るサーバ1000の概略構成図を示す。具体的には、サーバ1000は、中央処理装置(CPU)1001と、ランダムアクセスメモリ(RAM)1002及びリードオンリーメモリ(ROM)1003を含むシステムメモリ1004と、システムメモリ1004及び中央処理装置1001を接続するシステムバス1005とを含む。サーバ1000は、コンピュータ内の各部品の間の情報伝送を支援する基本入力/出力システム(I/Oシステム)1006と、オペレーティングシステム1013、アプリケーションプログラム1014及び他のプログラムモジュール1015を記憶するための大容量記憶装置1007とをさらに含む。
基本入力/出力システム1006は、情報を表示するためのディスプレイ1008と、ユーザが情報を入力するための、例えばマウスや、キーボードなどの入力装置1009とを含む。ディスプレイ1008と入力装置1009とは、いずれもシステムバス1005に接続された入力/出力コントローラー1010を介して中央処理装置1001に接続される。基本入力/出力システム1006は、キーボード、マウス又は電子スタイラスなどの複数の他の装置からの入力を受信し、処理するための入力/出力コントローラー1010をさらに含んでよい。同様に、入力/出力コントローラー1010は、ディスプレイ、プリンター又は他のタイプの出力装置に出力をさらに提供する。
大容量記憶装置1007は、システムバス1005に接続された大容量記憶コントローラー(未図示)を介して中央処理装置1001に接続される。大容量記憶装置1007及びそれに関連するコンピュータ可読媒体は、サーバ1000に不揮発性ストレージを提供する。つまり、大容量記憶装置1007は、ハードディスク又はCD-ROIドライバーのようなコンピュータ可読媒体(未図示)を含んでよい。
一般性を失うことなく、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含んでよい。コンピュータ記憶媒体は、例えばコンピュータ可読命令や、データ構造、プログラムモジュール又は他のデータなどの情報を記憶するための、任意の方法又は技術で実現される揮発性及び不揮発性、取り外し可能及び取り外し不能媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EPROM、EEPROM、フラッシュメモリ又は他の固体記憶技術、CD-ROM、DVD又は他の光学記憶装置、磁気テープカートリッジ、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置を含む。当然のことながら、当業者は、コンピュータ記憶媒体が上述した幾つかの種類のものに限定されないことがわかる。上述したシステムメモリ1004及び大容量記憶装置1007は、メモリと総称されてよい。
本願の種々の実施形態によれば、サーバ1000は、さらにインターネットなどのネットワークを介してネットワークにおける遠隔コンピュータに接続されて動作することができる。つまり、サーバ1000は、システムバス1005に接続されたネットワークインタフェースユニット1011を介してネットワーク1012に接続されることができ、或いは、ネットワークインタフェースユニット1011を用いて他のタイプのネットワーク又は遠隔コンピュータシステム(未図示)に接続されることができる。
一実施形態では、該メモリには、1つ以上のプロセッサによってロードされ実行されると、上記各方法の実施形態に係る文生成方法を実現する少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されている。
本願の実施形態は、さらに、上記図9に係る端末900であってもよいし、上記図10に係るサーバ1000であってもよい電子機器を提供する。
本願の実施形態は、さらに、1つ以上のプロセッサによって実行されると、上記各方法の実施形態に係る文生成方法が実現される少なくとも1つのコンピュータ可読命令が記憶されているコンピュータ可読記憶媒体を提供する。
上記本願の実施形態の番号は説明のためのものに過ぎず、実施形態の優劣を示すものではない。
当業者であれば理解できるように、上記実施形態の文生成方法の全部又は一部のステップの実現は、ハードウェアにより完了してもよく、プログラムによりコンピュータ可読命令に関連するハードウェアを命令して完了してもよく、該プログラムがコンピュータ可読記憶媒体に記憶されてよく、上述した記憶媒体はリードオンリーメモリ、磁気ディスク又は光ディスクなどであってよい。
以上の記載は、本願の好ましい実施形態に過ぎず、本願を限定するものではなく、本願の構想及び原則内に行われる全ての修正、同等置換及び改善などは、いずれも本願の保護範囲に含まれるべきである。
100 入力オブジェクト
200 電子機器
10 プロセッサ
20 メモリ
21 オペレーティングシステム
22 取得モジュール
23 符号化モジュール
24 復号化モジュール
25 クラスタリングモジュール
26 選別モジュール
27 決定モジュール
28 アプリケーションプログラム
30 通信インタフェース
810 取得モジュール
820 符号化モジュール
830 復号化モジュール
840 クラスタリングモジュール
850 選別モジュール
860 決定モジュール
900 端末
901 プロセッサ
902 メモリ
903 周辺機器インタフェース
904 無線周波数回路
905 ディスプレイ
906 カメラコンポーネント
907 オーディオ回路
908 測位コンポーネント
909 電源
910 センサ
911 加速度センサ
912 ジャイロセンサ
913 圧力センサ
914 指紋センサ
915 光学センサ
916 近接センサ
1000 端末
1001 中央処理装置
1002 ランダムアクセスメモリ(RAM)
1003 リードオンリーメモリ(ROM)
1004 システムメモリ
1005 システムバス
1006 出力システム
1007 大容量記憶装置
1008 ディスプレイ
1009 入力装置
1010 出力コントローラー
1011 ネットワークインタフェースユニット
1012 ネットワーク
1013 オペレーティングシステム
1014 アプリケーションプログラム
1015 プログラムモジュール

Claims (15)

  1. 電子機器が実行する文生成方法であって、
    入力シーケンスを取得するステップと、
    前記入力シーケンスを符号化処理して文特徴ベクトルを取得するステップと、
    前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するステップと、
    前記第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するステップであって、前記少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプが異なる、ステップと、
    前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するステップであって、前記第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含む、ステップと、
    予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定するステップであって、前記予め設定された決定方略は、前記第2の所定数の各候補文シーケンスの文品質を評価することを含む、ステップと、を含む文生成方法。
  2. 前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得する前記ステップは、
    前記文特徴ベクトルに対してi回目の復号化を行って前記第1の所定数の候補文シーケンスを取得するステップであって、前記候補文シーケンスがi個の復号化単語を含み、前記iの初期値が1である、ステップを含み、
    前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する前記ステップの後、前記方法は、さらに、
    前記i回目の復号化によって取得された復号化単語に予測された終了単語が含まれない場合、前記第2の所定数の候補文シーケンスをi+1回目の復号化の入力とすると共に、前記i+1回目をi回目として、前記文特徴ベクトルに対してi回目の復号化を行って前記第1の所定数の候補文シーケンスを取得するステップを継続して実行するステップと、
    前記i回目の復号化によって取得された復号化単語に前記予測された終了単語が含まれる場合、予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定する前記ステップを実行するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記文特徴タイプは、前記候補文シーケンスが安全な文シーケンスであることを示すための第1の文特徴タイプ、前記候補文シーケンスが流暢でない文シーケンスであることを示すための第2の文特徴タイプ、及び、前記候補文シーケンスが流暢でかつ的確性を有する文シーケンスであることを示すための第3の文特徴タイプのうちの少なくとも1つを含む、ことを特徴とする請求項1または2に記載の方法。
  4. 予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定する前記ステップは、
    文スコアリングモデルを取得するステップであって、前記文スコアリングモデルは、サンプル文シーケンスに基づいてトレーニングして得られた文評価ルールを表すためのものである、ステップと、
    前記第2の所定数の候補文シーケンスの各前記候補文シーケンスを前記文スコアリングモデルに入力して文スコアを取得するステップであって、前記文スコアは、前記候補文シーケンスの文品質を示すためのものである、ステップと、
    前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、前記出力シーケンスを決定するステップと、を含み、
    前記文スコアと前記候補文シーケンスの文品質とは負の相関関係にあり、
    前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアに基づいて、前記出力シーケンスを決定する前記ステップは、
    前記第2の所定数の候補文シーケンスそれぞれに対応する文スコアのうちの最も低い文スコアを決定するステップと、
    前記最も低い文スコアに対応する候補文シーケンスを前記出力シーケンスとして決定するステップと、を含むことを特徴とする請求項1に記載の方法。
  5. 文スコアリングモデルを取得する前記ステップは、
    トレーニングサンプルセットを取得するステップであって、前記トレーニングサンプルセットが少なくとも1組のサンプルデータ組を含み、各前記サンプルデータ組がサンプル文シーケンスと予めアノテーションされた正しい文スコアとを含む、ステップと、
    前記少なくとも1組のサンプルデータ組に基づいて、誤差逆伝播アルゴリズムを用いて元のパラメータモデルをトレーニングし、前記文スコアリングモデルを取得するステップと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別する前記ステップは、
    前記少なくとも2種類の文シーケンス集合の各種類の前記文シーケンス集合について、前記文シーケンス集合中の複数の候補文シーケンスをソートするステップと、
    前記文シーケンス集合中の、ソートした上位所定数の候補文シーケンスを取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  7. 前記文生成方法が対話システムに適用され、前記入力シーケンスが応答対象文であり、前記出力シーケンスが応答文である、ことを特徴とする請求項1に記載の方法。
  8. 前記文生成方法が機械翻訳システムに適用され、前記入力シーケンスが翻訳対象の第1の言語タイプの文であり、前記出力シーケンスが翻訳済みの第2の言語タイプの文であり、第1の言語タイプが第2の言語タイプと異なる、ことを特徴とする請求項1に記載の方法。
  9. 前記文生成方法が質問応答システムに適用され、前記入力シーケンスが質問文であり、前記出力シーケンスが回答文である、ことを特徴とする請求項1に記載の方法。
  10. 前記文生成方法が自動創作システムに適用され、前記入力シーケンスがテーマ文であり、前記出力シーケンスがコンテンツ文である、ことを特徴とする請求項1に記載の方法。
  11. 前記文生成方法が読解システムに適用され、前記入力シーケンスが問題文であり、前記出力シーケンスが答え文である、ことを特徴とする請求項1に記載の方法。
  12. 入力シーケンスを取得する前記ステップは、
    対話アプリケーションプログラムにより入力された応答対象文を入力シーケンスとして取得するステップを含み、
    前記方法は、さらに、
    前記出力シーケンスとして応答文を取得するステップと、
    前記対話アプリケーションプログラムにより前記応答文を表示するステップと、を含むことを特徴とする請求項1に記載の方法。
  13. 電子機器に設けられる文生成装置であって、
    入力シーケンスを取得するための取得モジュールと、
    前記入力シーケンスを符号化処理して文特徴ベクトルを取得するための符号化モジュールと、
    前記文特徴ベクトルを復号化して第1の所定数の候補文シーケンスを取得するための復号化モジュールと、
    前記第1の所定数の候補文シーケンスをクラスタリングして、少なくとも2種類の文シーケンス集合を取得するためのクラスタリングモジュールであって、前記少なくとも2種類の文シーケンス集合それぞれに対応する文特徴タイプが異なる、クラスタリングモジュールと、
    前記少なくとも2種類の文シーケンス集合から第2の所定数の候補文シーケンスを選別するための選別モジュールであって、前記第2の所定数の候補文シーケンスが少なくとも2タイプの文特徴タイプを含む、選別モジュールと、
    予め設定された決定方略に従って、前記第2の所定数の候補文シーケンスから1つの候補文シーケンスを、前記入力シーケンスに対応する出力シーケンスとして決定するための決定モジュールであって、前記予め設定された決定方略は、前記第2の所定数の各候補文シーケンスの文品質を評価することを含む、決定モジュールと、を含むことを特徴とする文生成装置。
  14. 1つ以上のプロセッサと、
    少なくとも1つのコンピュータ可読命令、少なくとも1つのプログラム、コードセット又はコンピュータ可読命令セットが記憶されているメモリと、を含み、
    前記1つ以上のプロセッサは、前記少なくとも1つのコンピュータ可読命令、前記少なくとも1つのプログラム、前記コードセット又はコンピュータ可読命令セットをロードして実行し、請求項1~12のいずれか一項に記載の文生成方法を実現するように構成される、ことを特徴とする電子機器。
  15. コンピュータに、請求項1~12のいずれか1項に記載の文生成方法を実行させるためのプログラム。
JP2021540365A 2019-01-24 2020-01-21 文生成方法と装置、電子機器及びプログラム Active JP7290730B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910068987.3 2019-01-24
CN201910068987.3A CN110162604B (zh) 2019-01-24 2019-01-24 语句生成方法、装置、设备及存储介质
PCT/CN2020/073407 WO2020151690A1 (zh) 2019-01-24 2020-01-21 语句生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022500808A JP2022500808A (ja) 2022-01-04
JP7290730B2 true JP7290730B2 (ja) 2023-06-13

Family

ID=67644826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021540365A Active JP7290730B2 (ja) 2019-01-24 2020-01-21 文生成方法と装置、電子機器及びプログラム

Country Status (4)

Country Link
US (1) US12067347B2 (ja)
JP (1) JP7290730B2 (ja)
CN (1) CN110162604B (ja)
WO (1) WO2020151690A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
CN110827085A (zh) * 2019-11-06 2020-02-21 北京字节跳动网络技术有限公司 文本处理方法、装置及设备
CN110990697A (zh) * 2019-11-28 2020-04-10 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备和存储介质
CN112308313B (zh) * 2020-10-29 2023-06-16 中国城市规划设计研究院 一种学校连续点选址方法、装置、介质及计算机设备
CN113807074A (zh) * 2021-03-12 2021-12-17 京东科技控股股份有限公司 基于预训练语言模型的相似语句生成方法和装置
CN116738191B (zh) * 2023-06-14 2024-07-26 苏州光格科技股份有限公司 时序数据的增强处理方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254420A (ja) 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
CN108021705A (zh) 2017-12-27 2018-05-11 中科鼎富(北京)科技发展有限公司 一种答案生成方法及装置
JP2018180937A (ja) 2017-04-13 2018-11-15 日本電信電話株式会社 クラスタリング装置、回答候補生成装置、方法、及びプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7225120B2 (en) * 2001-05-30 2007-05-29 Hewlett-Packard Development Company, L.P. Method of extracting important terms, phrases, and sentences
CN1790332A (zh) * 2005-12-28 2006-06-21 刘文印 一种问题答案的阅读浏览显示方法及其系统
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US20110246465A1 (en) * 2010-03-31 2011-10-06 Salesforce.Com, Inc. Methods and sysems for performing real-time recommendation processing
JP6414956B2 (ja) * 2014-08-21 2018-10-31 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
US9910886B2 (en) * 2015-04-17 2018-03-06 International Business Machines Corporation Visual representation of question quality
CN104778256B (zh) * 2015-04-20 2017-10-17 江苏科技大学 一种领域问答系统咨询的快速可增量聚类方法
US11157536B2 (en) * 2016-05-03 2021-10-26 International Business Machines Corporation Text simplification for a question and answer system
US9881082B2 (en) * 2016-06-20 2018-01-30 International Business Machines Corporation System and method for automatic, unsupervised contextualized content summarization of single and multiple documents
US9886501B2 (en) * 2016-06-20 2018-02-06 International Business Machines Corporation Contextual content graph for automatic, unsupervised summarization of content
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
KR102565275B1 (ko) * 2016-08-10 2023-08-09 삼성전자주식회사 병렬 처리에 기초한 번역 방법 및 장치
US10275515B2 (en) * 2017-02-21 2019-04-30 International Business Machines Corporation Question-answer pair generation
US10579725B2 (en) * 2017-03-15 2020-03-03 International Business Machines Corporation Automated document authoring assistant through cognitive computing
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10497366B2 (en) * 2018-03-23 2019-12-03 Servicenow, Inc. Hybrid learning system for natural language understanding
US11042713B1 (en) * 2018-06-28 2021-06-22 Narrative Scienc Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system
CN108897872B (zh) * 2018-06-29 2022-09-27 北京百度网讯科技有限公司 对话处理方法、装置、计算机设备和存储介质
CN109145099B (zh) * 2018-08-17 2021-02-23 百度在线网络技术(北京)有限公司 基于人工智能的问答方法和装置
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
US11036941B2 (en) * 2019-03-25 2021-06-15 International Business Machines Corporation Generating a plurality of document plans to generate questions from source text
CN110619123B (zh) * 2019-09-19 2021-01-26 电子科技大学 一种机器阅读理解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254420A (ja) 2012-06-08 2013-12-19 Nippon Telegr & Teleph Corp <Ntt> 質問応答装置、モデル学習装置、方法、及びプログラム
JP2018180937A (ja) 2017-04-13 2018-11-15 日本電信電話株式会社 クラスタリング装置、回答候補生成装置、方法、及びプログラム
CN108021705A (zh) 2017-12-27 2018-05-11 中科鼎富(北京)科技发展有限公司 一种答案生成方法及装置

Also Published As

Publication number Publication date
WO2020151690A1 (zh) 2020-07-30
CN110162604A (zh) 2019-08-23
JP2022500808A (ja) 2022-01-04
US12067347B2 (en) 2024-08-20
US20210232751A1 (en) 2021-07-29
CN110162604B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
JP7290730B2 (ja) 文生成方法と装置、電子機器及びプログラム
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
CN111339246B (zh) 查询语句模板的生成方法、装置、设备及介质
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN107423398B (zh) 交互方法、装置、存储介质和计算机设备
Wöllmer et al. LSTM-modeling of continuous emotions in an audiovisual affect recognition framework
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
Eyben et al. A multitask approach to continuous five-dimensional affect sensing in natural speech
CN112069309B (zh) 信息获取方法、装置、计算机设备及存储介质
CN111460201A (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN110795544B (zh) 内容搜索方法、装置、设备和存储介质
CN113836295B (zh) 一种文本摘要提取方法、系统、终端及存储介质
CN116821781A (zh) 分类模型的训练方法、文本分析方法及相关设备
CN116958342A (zh) 虚拟形象的动作生成方法、动作库的构建方法及装置
Lotfian et al. Over-sampling emotional speech data based on subjective evaluations provided by multiple individuals
JP2005141437A (ja) パターン認識装置及びその方法
CN116680379A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
US20240028952A1 (en) Apparatus for attribute path generation
CN113609863B (zh) 一种训练、使用数据转换模型的方法、装置及计算机设备
CN115269961A (zh) 内容搜索方法以及相关设备
Ke et al. An interactive system for humanoid robot SHFR-III
Elbarougy et al. Continuous audiovisual emotion recognition using feature selection and lstm
CN118429897B (zh) 群体检测方法、装置、存储介质和电子设备
US12100393B1 (en) Apparatus and method of generating directed graph using raw data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230522

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230601

R150 Certificate of patent or registration of utility model

Ref document number: 7290730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150