JP2022088494A - テキスト生成方法、装置、電子機器及び記憶媒体 - Google Patents

テキスト生成方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022088494A
JP2022088494A JP2022048414A JP2022048414A JP2022088494A JP 2022088494 A JP2022088494 A JP 2022088494A JP 2022048414 A JP2022048414 A JP 2022048414A JP 2022048414 A JP2022048414 A JP 2022048414A JP 2022088494 A JP2022088494 A JP 2022088494A
Authority
JP
Japan
Prior art keywords
text
preamble
character
controllable
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022048414A
Other languages
English (en)
Other versions
JP7397114B2 (ja
Inventor
ジュア フー
Zhe Hu
ジーウェイ ツァオ
Zhiwei Cao
ジヤチェン リォウ
Jiachen Liu
シンイェン シャオ
Xinyan Xiao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022088494A publication Critical patent/JP2022088494A/ja
Application granted granted Critical
Publication of JP7397114B2 publication Critical patent/JP7397114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキスト生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】テキスト生成方法は、前文テキストを符号化して。符号化シーケンスを取得し101、生成対象の後文テキストの制御可能な属性を取得し102、前文テキストの符号化シーケンス及び後文テキストの制御可能な属性に基づいて、後文テキストの隠れ状態を予測し103、後文テキストの隠れ状態に基づいて、前文テキストの符号化シーケンスを復号化して、前文テキストに対応する後文テキストを取得する104。【選択図】図1

Description

本開示は、データ処理技術の分野に関し、特に、自然言語処理技術の分野に関し、具体的には、テキスト生成方法、装置、電子機器及び記憶媒体に関する。
制御可能なテキストの生成は、所望の制御可能な属性に基づいてテキストを生成する方式であり、例えば、制御可能な属性は、具体的には、感情的傾向、文の長さ、コンテンツの具体性の程度及び言語スタイルタイプなどであってもよい。
関連技術において、生成されたテキストが所望の制御可能な属性を満たすようにするために、通常、前文テキストと制御可能な属性とをスプライシングして翻訳モデルに入力し、符号化及び復号化を順に行うことにより、後文テキストを生成するが、実際の実行において、このように生成された後文テキストの品質が高くないことを見出した。
本開示は、テキスト生成方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、テキスト生成方法を提供し、前記テキスト生成方法は、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するステップと、
生成対象の後文テキストの制御可能な属性を取得するステップと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップと、を含む。
本開示の別の態様によれば、テキスト生成装置を提供し、前記テキスト生成装置は、
前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される符号化モジュールと、
生成対象の後文テキストの制御可能な属性を取得するように構成される取得モジュールと、
前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される予測モジュールと、
前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される復号化モジュールと、を含む。
本開示の別の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが前記一態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに前記一態様に記載の方法を実行させる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、前記一態様に記載の方法が実現される。
本開示によって提供されるテキスト生成方法、装置、電子機器及び記憶媒体は、前文テキストを符号化して符号化シーケンスが取得された後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得し、後文テキストの隠れ状態が制御可能な属性に適合するようにする。制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを2つのステップに分割することで、第1のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、制御可能な属性に適合するようにし、後文テキストの生成品質が向上する。
なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の実施例により提供されるテキスト生成方法の概略フローチャートである。 テキスト生成モデルのフレームチャートである。 本開示の実施例により提供される他のテキスト生成方法の概略フローチャートである。 後文テキスト生成の原理図である。 本開示の実施例により提供されるテキスト生成装置の概略構成図である。 本開示の実施例により提供される例示的な電子機器600の概略ブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下に、図面を参照して本開示の実施例に係るテキスト生成方法、装置、電子機器及び記憶媒体を説明する。
関連技術において、生成されたテキストが所望の制御可能な属性を満たすようにするために、通常、前文テキストと制御可能な属性とをスプライシングしてから翻訳モデルに入力し、翻訳モデルの出力に基づいて後文テキストを決定する。このような方式では、翻訳モデルに対するトレーニング要求が高く、翻訳モデルは、入力された前文テキスト及び制御可能な属性と、当該制御可能な属性に適合する後文テキストとのマッピング関係を学習する必要があり、翻訳モデルにとっては、このような複雑なマッピング関係を学習することが困難であり、実際の実行において、生成された後文テキストの品質が高くない。
本開示において、翻訳モデルがこのような複雑なマッピング関係を直接学習することを回避するために、学習目標を分割し、高品質な応答及び制御可能な属性を満たすという2つの目標をそれぞれ決定している。前文テキストを符号化した後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスを符号化し、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。
図1は、本出願の実施例により提供されるテキスト生成方法の概略フローチャートである。
図1に示すように、当該方法は以下のステップ101~104を含む。
ステップ101において、前文テキストを符号化して、前文テキストの符号化シーケンスを取得する。
ステップ102において、生成対象の後文テキストの制御可能な属性を取得する。
第1の可能な実施形態として、ユーザの操作に応答して、制御可能な属性の目標値を決定する。
第2の可能な実施形態として、前文テキストを符号化して、前文テキストの符号化シーケンスを取得してから、前文テキストの符号化シーケンスに基づいて制御可能な属性を予測して、目標値を取得する。
なお、異なるシナリオに応じて、第1の可能な実施形態、又は第2の可能な実施形態のうちの1つを実行してもよく、あるいは、第1の可能な実施形態においてユーザの操作が検知されていないか、又はユーザの操作に基づいて目標値が決定できない場合、第2の可能な実施形態を実行してもよい。
前記2つの可能な実施形態に基づいて、制御可能な属性はユーザによって手動で入力されてもよいし、ユーザによって手動で入力されなくてもよく、テキスト生成の形態をより柔軟にし、ユーザの異なるニーズを満たすことができることが分かる。
ステップ103において、前文テキストの符号化シーケンス及び後文テキストの制御可能な属性に基づいて、後文テキストの隠れ状態を予測する。
ここで、後文テキストの隠れ状態は、制御可能な属性に適合し、すなわち、後文テキストの隠れ状態には、制御可能な属性が含まれている。
ステップ104において、後文テキストの隠れ状態に基づいて、前文テキストの符号化シーケンスを復号化して、前文テキストに対応する後文テキストを取得する。
本実施例を明確に説明するために、本実施例は、図2に示すテキスト生成モデルのフレームを提供し、図2に示すように、前文テキストの符号がxであり、前文テキストに対して図2に示すエンコーダを利用して符号化して、前文テキストの符号化シーケンスHを取得し、前文テキストの符号化シーケンスHを属性プレディクタに入力して、属性プレディクタを利用して前文テキストの符号化シーケンスHに基づいて後文テキストの制御可能な属性zを予測する。さらに符号化シーケンスH及び後文テキストの制御可能な属性zをデコーダに入力して復号化し、前文テキストに対応する後文テキストyを取得する。
ここで、図2に示すデコーダで復号化することは、2つの段階に分けることができる。
第1の段階は、図2に示す制御可能な属性の計画層で実行される。前文テキストの符号化シーケンスH及び前記後文テキストの制御可能な属性zに基づいて、前記後文テキストの隠れ状態Hを予測する。
第2の段階は、図2に示す出力生成層で実行される。後文テキストの隠れ状態Hに基づいて、前記前文テキストの符号化シーケンスHを復号化して、前記前文テキストに対応する後文テキストyを取得する。
図2に示すテキスト生成モデルで後文テキストを生成する前に、テキスト生成モデルをトレーニングする必要がある。以下に、テキスト生成モデルのトレーニングプロセスを簡単に説明する。
先ず、トレーニングサンプルを用意し、トレーニングサンプルは、会話から得られた前文テキストを切り取り、対応する後文テキストでラベル付けし、及び後文テキストの制御可能な属性を手動でラベル付けすることができ、ここでのラベル付けされた制御可能な属性は、グローバル属性及び各文字のローカル属性の値を含む。
さらに、トレーニングサンプルをテキスト生成モデルに入力し、当該テキスト生成モデルによってトレーニングサンプルに対して予測された制御可能な属性とラベル付けされた制御可能な属性との間の相違、及び当該テキスト生成モデルによって予測された後文テキストとラベル付られた後文テキストとの間の相違に基づいて、テキスト生成モデルをトレーニングする。
本実施例において、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することで、後文テキストの隠れ状態を制御可能な属性に適合させる。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスを復号化し、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキストの生成プロセスを2つのステップに分割することにより、第1のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、前記制御可能な属性を保留する。関連技術において、前文テキストを制御可能な属性とともにモデルに入力して、モデルによって出力された後文を取得し、このような方式は、前文テキスト及び制御可能な属性のスプライシングと、後文テキストとの間のマッピングが複雑で、後文テキストの生成品質が高くない。本実施例において、複雑なマッピングプロセスを2つの簡単なステップに分割することにより、後文テキストの生成品質を向上させる。
上記の実施例を基に、本実施例は、制御可能な属性をグローバル属性及びローカル属性に分割する実施形態を提供する。関連技術において、制御可能な属性をグローバル属性及びローカル属性に分割していない。本開示の実施例において、制御可能な属性が異なる粒度から後文テキストに与える影響に基づいて、グローバル属性とローカル属性との分割を行う。グローバル属性は、文の全体に反映される属性であるため、後文テキストにおける各文字のグローバル属性の値がいずれも同じである。ローカル属性は、文の各語に反映される属性であり、後文テキストにおける異なる文字のローカル属性の値が異なってもよく、すなわち、各文字は対応するローカル属性の値を有する。前記実施例を基に、本実施例において、グローバル属性及びローカル属性をそれぞれ説明する。
図3は、本開示の実施例により提供される他のテキスト生成の概略フローチャートであり、図3に示すように、この方法は、以下のステップ301~303を含む。
ステップ301において、前文テキストを符号化して、前文テキストの符号化シーケンスを取得する。
前文テキストをエンコーダに入力して符号化して、前文テキストの符号化シーケンスを取得する。前文テキストの符号化シーケンスには、複数のベクトル形態のコードが含まれ、各コードはそれぞれ前文テキストにおける文字に対応し、すなわち、前文テキストにおける各文字が対応するコードを有する。
ステップ302において、制御可能な属性の目標値を取得する。
第1の可能な実施形態として、ユーザの操作に応答して、制御可能な属性の目標値を決定する。
第2の可能な実施形態として、前文テキストを符号化して、前文テキストの符号化シーケンスを取得してから、前文テキストの符号化シーケンスに基づいて制御可能な属性を予測して、目標値を取得する。
なお、異なるシナリオに応じて、第1の可能な実施形態、又は第2の可能な実施形態のうちの1つを実行してもよく、あるいは、第1の可能な実施形態においてユーザの操作が検知されていないか、又はユーザの操作に基づいて目標値が決定できない場合、第2の可能な実施形態を実行してもよい。
前記2つの可能な実施形態に基づいて、制御可能な属性は、ユーザによって手動で入力されてもよいし、ユーザによって手動で入力されなくてもよく、テキスト生成の形態をより柔軟にし、ユーザの異なるニーズを満たすことができることが分かる。
ステップ303において、制御可能な属性がローカル属性である場合、目標値及び前文テキストにおける各文字のコードに基づいて、後文テキストにおける各文字の制御可能な属性の値を予測する。
ここで、ローカル属性は、各単語から後文テキストを属性制御する制御可能な属性である。例えば、ローカル属性は、コンテンツの具体性の程度及び感情的傾向を含むことができる。
しかしながら、ユーザが後文テキストにおける文字ごとにローカル属性の値をそれぞれ指定するという操作が複雑であり、ユーザの操作を簡素化するために、後文テキストにおける文字ごとに制御可能な属性の値を予測する必要がある。本開示の実施例において、ユーザは、ローカル属性の目標値を1つだけ指定し、当該目標値に基づいて後文テキストにおける各文字のローカル属性の値を予測することができる。
選択的に、目標値と前文テキストにおける符号化シーケンスとを融合させて、第3の循環ニューラルネットワークに入力し、後文テキストにおける最初の文字の制御可能な属性の値を取得する。さらに後文テキストにおける第(n-1)個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第3の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の制御可能な属性の値を取得する。
ステップ304において、制御可能な属性がグローバル属性である場合、後文テキストにおける各文字の制御可能な属性の値が当該目標値であると決定する。
ここで、グローバル属性は、文の全体から属性制御を行う制御可能な属性である。例えば、グローバル属性は、文の長さ及び言語のスタイルタイプなどを含むことができる。したがって、後文テキストにおける各文字の利用可能な属性の値をいずれも目標値として決定することにより、生成された文のスタイルを統一することができる。
ステップ305において、符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得する。
選択的に、前文テキストの符号化シーケンスと後文テキストにおける最初の文字の制御可能な属性とを直接スプライシングするか、又は重み付け加算し、第1の循環ニューラルネットワークの入力ベクトルを取得する。当該入力ベクトルを第1のトレーニングニューラルネットワークに入力してから、第1の循環ニューラルネットワークによって復号化し、後文テキストにおける最初の文字の隠れ状態を取得する。第1の循環ニューラルネットワークによって出力された隠れ状態には、制御可能な属性の関連情報が含まれているが、前文テキストに応答する意味が含まれていない。
ステップ306において、後文テキストにおける第(n-1)個の文字の隠れ状態と、前記後文テキストにおける第n個の文字の制御可能な属性と、前記前文テキストの第n個の文字の復号化とを融合させて、前記第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の隠れ状態を取得し、nは1より大きい整数である。
第1の循環ニューラルネットワークによって後文テキストにおける最初の文字の隠れ状態を入力した後、当該隠れ状態、後文テキストにおける後続の文字に対応する制御可能な属性及び前文テキストの符号化シーケンスに基づいて、後文テキストにおける後続の文字の復号化を続ける。
ステップ307において、符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得する。
選択的に、符号化シーケンスにおける前文テキストの最後の文字に対応するコードが、通常、前のテキスト全体の意味を含むため、符号化シーケンスにおける前文テキストの最後の文字に対応するコードと後文テキストにおける最初の文字の隠れ状態とを融合させて、第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得することができる。
ステップ308において、前記後文テキストにおける第(n-1)個の文字のコードと、前記後文テキストにおける第n個の文字の隠れ状態と、前記前文テキストにおける第n個のコードとを融合させて、前記第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字のコードを取得する。
ステップ309において、前記後文テキストにおける各文字のコードに基づいて、後文テキストを決定する。
後文テキストにおける各文字のコードは、辞書の各文字の後文テキストにおける確率を示し、当該確率に基づいて辞書から後文テキストの当該文字位置における文字コンテンツを決定する。
本実施例をはっきり説明するために、本実施例は、図4に示す後文テキスト生成の原理図をさらに提供する。
図4に示すように、前文テキスト、例えば、「How do you like the pizza here?」を入力し、後文テキストにおける各文字がそれぞれ対応する制御属性を有し、ここでの制御属性は、ローカル属性及びグローバル属性を含み、ここで、ローカル属性は、白丸で識別され、グローバル属性は、黒丸で識別される。後文テキストにおける各文字の制御属性及び前文テキストの符号化シーケンスに基づいて、後文テキストにおける各文字の隠れ状態hnを取得し、ここで、nは、正整数であり、対応する文字の後文テキストにおける順番又は位置番号を示す。後文テキストにおける各文字の隠れ状態hn、及び前文テキストの符号化シーケンスに基づいて復号化して、後文テキストのコードhnを取得する。後文テキストの各コードhnに基づいて、最終的な後文テキスト、例えば、「Perfacet! It really hits...」を取得する。
本実施例において、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストの隠れ状態が意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを2つのステップに分割することで、第1のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、前記制御可能な属性を保留し、後文テキストの生成品質が向上する。同時に、ローカル属性及びグローバル属性に対してそれぞれ異なる処理を行って、後文テキストにおける制御可能な属性の各文字に対応する値を決定し、後文テキストの生成品質がさらに向上する。
図5は、本開示の実施例により提供されるテキスト生成装置の概略構成図である。図5に示すように、当該装置は、符号化モジュール51、取得モジュール52、予測モジュール53及び復号化モジュール54を含む。
符号化モジュール51は、前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される。
取得モジュール52は、生成対象の後文テキストの制御可能な属性を取得するように構成される。
予測モジュール53は、前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される。
復号化モジュール54は、前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される。
さらに、本実施例の可能な一実施形態において、取得モジュール52は、
前記制御可能な属性の目標値を取得するように構成される取得ユニットと、
前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するように構成される予測ユニットと、を含む。
さらに、本実施例の可能な一実施形態において、取得モジュール52は、
前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するように構成される決定ユニットをさらに含む。
さらに、本実施例の可能な一実施形態において、取得ユニットは、具体的には、
ユーザの操作に応答して、前記制御可能な属性の目標値を決定し、
あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するように構成される。
さらに、本実施例の可能な一実施形態において、予測モジュール53は、
前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するように構成される第1の復号化ユニットと、
前記後文テキストにおける第(n-1)個の文字の隠れ状態と、前記後文テキストにおける第n個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の隠れ状態を取得するように構成される第2の復号化ユニットであって、nは1より大きい整数である第2の復号化ユニットと、を含む。
さらに、本実施例の可能な一実施形態において、復号化モジュール54は、
前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するように構成される第3の復号化ユニットと、
前記後文テキストにおける第(n-1)個の文字のコードと、前記後文テキストにおける第n個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字のコードを取得するように構成される第4の復号化ユニットと、
前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するように構成される出力ユニットと、を含む。
さらに、本実施例の可能な一実施形態において、予測ユニットは、具体的には、
前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第3の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得し、
前記後文テキストにおける第(n-1)個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第3の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の制御可能な属性の値を取得するように構成される。
本実施例によって提供される装置は、前文テキストを符号化して符号化シーケンスが取得された後、前文テキストの符号化シーケンス及び制御可能な属性を復号化して、後文テキストの隠れ状態を取得することにより、後文テキストの隠れ状態が制御可能な属性に適合するようにする。さらに制御可能な属性に適合する当該隠れ状態及び前文テキストの符号化シーケンスに対して次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにする。後文テキスト生成プロセスを2つのステップに分割することで、第1のステップで生成された後文テキストの隠れ状態が制御可能な属性に適合するようにし、これに基づいて、次の復号化を行い、復号化された後文テキストが意味的に当該前文テキストへの応答であるようにするとともに、制御可能な属性に適合するようにし、後文テキストの生成品質が向上する。
なお、前記方法実施例に対する解釈説明は、本実施例の装置にも適用され、原理が同じであり、本実施例では説明を省略する。
本開示の実施例によれば、本開示は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるテキスト生成方法が実現される。
図6は、本開示の実施例を実施するための例示的な電子機器600の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限するものではない。
図6に示すように、デバイス600は、ROM(Read-Only Memory、リードオンリーメモリ)602に記憶されているコンピュータプログラム、又は記憶ユニット608からRAM(Random Access Memory、ランダムアクセスメモリ)603にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット601を含む。RAM603には、デバイス600の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。I/O(Input/Output、入力/出力)インターフェース605もバス604に接続されている。
デバイス600内の複数のコンポーネントは、I/Oインターフェース605に接続され、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット609と、を含む。通信ユニット609は、デバイス600がインタ-ネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、CPU(Central Processing Unit、中央処理ユニット)、GPU(Graphic Processing Units、グラフィックス処理ユニット)、様々な専用AI(Artificial intelligence、人工知能)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、DSP(Digital Signal Processor、デジタルシグナルプロセッサ)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上述した各方法及び処理、例えば、テキスト生成方法を実行する。例えば、いくつかの実施例では、テキスト生成方法は、記憶ユニット608のような機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM602及び/又は通信ユニット609を介してデバイス600にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM603にロッドされて計算ユニット601によって実行される場合、上述したテキスト生成方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット601は、テキスト生成方法を実行するように、他の任意の適切な形態で(例えば、ファーとウェアを介して)構成されてもよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、FPGA(Field Programmable Gate Array、フィールドプログラマブルゲートアレイ)、ASIC(Application-Specific Integrated Circuit、特定用途向け集積回路)、ASSP(Application Specific Standard Product、特定用途向け標準製品)、SOC(System On Chip、システムオンチップ)、CPLD(Complex Programmable Logic Device、コンプレックス・プログラマブル・ロジック・デバイス)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができる1つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び/又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することが可能な有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory、消去可能プログラマブルリードオンリーメモリ)又はフラッシュメモリ、光ファイバ、CD-ROM(Compact Disc Read-Only Memory、ポータブルコンパクトディスクリードオンリーメモリ)、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(Cathode-Ray Tube、陰極線管)又はLCD(Liquid Crystal Display、液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、LAN(Local Area Network、ローカルエリアネットワーク)と、WAN(Wide Area Network、ワイドエリアネットワーク)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。サーバは、分散システムのサーバであってもよく、ブロックチェーンを組み合わせたサーバであってもよい。
ここで、なお、人工知能はコンピュータに人間のある思考過程と知能行為(例えば、学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能ハードウェア技術には、一般的に、例えばセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等の技術が含まれる。人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (17)

  1. テキスト生成方法であって、
    前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するステップと、
    生成対象の後文テキストの制御可能な属性を取得するステップと、
    前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップと、
    前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップと、を含む、
    ことを特徴とするテキスト生成方法。
  2. 前記生成対象の後文テキストの制御可能な属性を取得するステップは、
    前記制御可能な属性の目標値を取得するステップと、
    前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するステップと、を含む、
    ことを特徴とする請求項1に記載のテキスト生成方法。
  3. 前記制御可能な属性の目標値を取得するステップの後に、
    前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するステップをさらに含む、
    ことを特徴とする請求項2に記載のテキスト生成方法。
  4. 前記制御可能な属性の目標値を取得するステップは、
    ユーザの操作に応答して、前記制御可能な属性の目標値を決定するステップ、
    あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するステップ、をさらに含む、
    ことを特徴とする請求項2に記載のテキスト生成方法。
  5. 前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するステップは、
    前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するステップと、
    前記後文テキストにおける第(n-1)個の文字の隠れ状態と、前記後文テキストにおける第n個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の隠れ状態を取得するステップであって、nは1より大きい整数であるステップと、を含む、
    ことを特徴とする請求項2又は3に記載のテキスト生成方法。
  6. 前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するステップは、
    前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するステップと、
    前記後文テキストにおける第(n-1)個の文字のコードと、前記後文テキストにおける第n個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字のコードを取得するステップと、
    前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するステップと、を含む、
    ことを特徴とする請求項5に記載のテキスト生成方法。
  7. 前記目標値及び前記前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を決定するステップは、
    前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第3の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得するステップと、
    前記後文テキストにおける第(n-1)個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第3の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の制御可能な属性の値を取得するステップと、を含む、
    ことを特徴とする請求項2に記載のテキスト生成方法。
  8. テキスト生成装置であって、
    前文テキストを符号化して、前記前文テキストの符号化シーケンスを取得するように構成される符号化モジュールと、
    生成対象の後文テキストの制御可能な属性を取得するように構成される取得モジュールと、
    前記前文テキストの符号化シーケンス及び前記後文テキストの制御可能な属性に基づいて、前記後文テキストの隠れ状態を予測するように構成される予測モジュールと、
    前記後文テキストの隠れ状態に基づいて、前記前文テキストの符号化シーケンスを復号化して、前記前文テキストに対応する後文テキストを取得するように構成される復号化モジュールと、を含む、
    ことを特徴とするテキスト生成装置。
  9. 前記取得モジュールが、
    前記制御可能な属性の目標値を取得するように構成される取得ユニットと、
    前記制御可能な属性がローカル属性である場合、前記目標値及び前記符号化シーケンスにおける前文テキストの各文字のコードに基づいて、前記後文テキストにおける各文字の制御可能な属性の値を予測するように構成される予測ユニットと、を含む、
    ことを特徴とする請求項8に記載のテキスト生成装置。
  10. 前記取得モジュールが、
    前記制御可能な属性がグローバル属性である場合、前記後文テキストにおける各文字の制御可能な属性の値が前記目標値であると決定するように構成される決定ユニットをさらに含む、
    ことを特徴とする請求項9に記載のテキスト生成装置。
  11. 前記取得ユニットが、
    ユーザの操作に応答して、前記制御可能な属性の目標値を決定し、
    あるいは、前記前文テキストの符号化シーケンスに基づいて前記制御可能な属性を予測して、前記目標値を取得するように構成される、
    ことを特徴とする請求項9に記載のテキスト生成装置。
  12. 前記予測モジュールが、
    前記符号化シーケンスと前記後文テキストにおける最初の文字の制御可能な属性とを融合させて、第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字の隠れ状態を取得するように構成される第1の復号化ユニットと、
    前記後文テキストにおける第(n-1)個の文字の隠れ状態と、前記後文テキストにおける第n個の文字の制御可能な属性と、前記前文テキストの符号化シーケンスとを融合させて、前記第1の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の隠れ状態を取得するように構成される第2の復号化ユニットであって、nは1より大きい整数である第2の復号化ユニットと、を含む、
    ことを特徴とする請求項9又は10に記載のテキスト生成装置。
  13. 前記復号化モジュールが、
    前記符号化シーケンスと前記後文テキストにおける最初の文字の隠れ状態とを融合させて、第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける最初の文字のコードを取得するように構成される第3の復号化ユニットと、
    前記後文テキストにおける第(n-1)個の文字のコードと、前記後文テキストにおける第n個の文字の隠れ状態と、前記前文テキストの符号化シーケンスとを融合させて、前記第2の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字のコードを取得するように構成される第4の復号化ユニットと、
    前記後文テキストにおける各文字のコードに基づいて、前記後文テキストを決定するように構成される出力ユニットと、を含む、
    ことを特徴とする請求項12に記載のテキスト生成装置。
  14. 前記予測ユニットが、
    前記目標値と前記前文テキストの符号化シーケンスとを融合させて、第3の循環ニューラルネットワークに入力し、前記後文テキストにおける最初の文字の制御可能な属性の値を取得し、
    前記後文テキストにおける第(n-1)個の文字の制御可能な属性の値と、前記目標値と、前記前文テキストの符号化シーケンスとを融合させて、前記第3の循環ニューラルネットワークに入力して復号化し、前記後文テキストにおける第n個の文字の制御可能な属性の値を取得するように構成される、
    ことを特徴とする請求項9に記載のテキスト生成装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれかに記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記命令は、コンピュータに請求項1~7のいずれかに記載の方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~7のいずれかに記載の方法が実現される、
    ことを特徴とするコンピュータプログラム。
JP2022048414A 2021-06-30 2022-03-24 テキスト生成方法、装置、電子機器及び記憶媒体 Active JP7397114B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110731989.3 2021-06-30
CN202110731989.3A CN113553863B (zh) 2021-06-30 2021-06-30 文本生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022088494A true JP2022088494A (ja) 2022-06-14
JP7397114B2 JP7397114B2 (ja) 2023-12-12

Family

ID=78131058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022048414A Active JP7397114B2 (ja) 2021-06-30 2022-03-24 テキスト生成方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220138435A1 (ja)
JP (1) JP7397114B2 (ja)
CN (1) CN113553863B (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180720A (ja) * 2017-04-06 2018-11-15 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
US20200356729A1 (en) * 2017-12-15 2020-11-12 Microsoft Technology Licensing, Llc Generation of text from structured data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528858A (zh) * 2016-11-29 2017-03-22 北京百度网讯科技有限公司 歌词生成方法及装置
KR20190019748A (ko) * 2017-08-18 2019-02-27 삼성전자주식회사 자연어 생성 방법 및 장치
CN108062388B (zh) * 2017-12-15 2021-09-17 北京百度网讯科技有限公司 人机对话的回复生成方法和装置
US11301870B2 (en) * 2018-02-20 2022-04-12 [24]7.ai, Inc. Method and apparatus for facilitating turn-based interactions between agents and customers of an enterprise
CN109670185B (zh) * 2018-12-27 2023-06-23 北京百度网讯科技有限公司 基于人工智能的文本生成方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180720A (ja) * 2017-04-06 2018-11-15 株式会社 ディー・エヌ・エー 入出力システム、入出力プログラム、情報処理装置、チャットシステム
US20200356729A1 (en) * 2017-12-15 2020-11-12 Microsoft Technology Licensing, Llc Generation of text from structured data

Also Published As

Publication number Publication date
CN113553863A (zh) 2021-10-26
CN113553863B (zh) 2023-10-20
JP7397114B2 (ja) 2023-12-12
US20220138435A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
JP7066349B2 (ja) 翻訳方法、翻訳装置及びコンピュータプログラム
JP7432556B2 (ja) マンマシンインタラクションのための方法、装置、機器および媒体
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
US11663488B2 (en) Initialization of parameters for machine-learned transformer neural network architectures
JP7346788B2 (ja) 音声認識モデルのトレーニング方法、装置、機器、および記憶媒体
JP2023039889A (ja) モデルトレーニング方法および字庫作成方法、デバイス、設備ならびに記憶媒体
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
US11836837B2 (en) Video generation method, device and storage medium
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
US20230090590A1 (en) Speech recognition and codec method and apparatus, electronic device and storage medium
US20210082408A1 (en) Generating acoustic sequences via neural networks using combined prosody info
US20220375453A1 (en) Method and apparatus for speech synthesis, and storage medium
WO2023142454A1 (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
JP2023027748A (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
JP7121791B2 (ja) 言語生成方法、装置及び電子機器
US20230410794A1 (en) Audio recognition method, method of training audio recognition model, and electronic device
KR20210058765A (ko) 음성 인식 방법, 장치, 전자기기 및 저장 매체
JP2023078411A (ja) 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
JP2023017983A (ja) 情報生成モデルの訓練方法、情報生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN115512682A (zh) 多音字读音预测方法、装置、电子设备及存储介质
US20220284891A1 (en) Noisy student teacher training for robust keyword spotting
JP2022088494A (ja) テキスト生成方法、装置、電子機器及び記憶媒体
CN113901841A (zh) 翻译方法、装置以及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231130

R150 Certificate of patent or registration of utility model

Ref document number: 7397114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150