JP2023027749A - 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体 - Google Patents

放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体 Download PDF

Info

Publication number
JP2023027749A
JP2023027749A JP2022092559A JP2022092559A JP2023027749A JP 2023027749 A JP2023027749 A JP 2023027749A JP 2022092559 A JP2022092559 A JP 2022092559A JP 2022092559 A JP2022092559 A JP 2022092559A JP 2023027749 A JP2023027749 A JP 2023027749A
Authority
JP
Japan
Prior art keywords
broadcast
named entity
domain knowledge
text
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022092559A
Other languages
English (en)
Inventor
ディン、シチアン
Shiqiang Ding
フアン、ジジョウ
Jizhou Huang
ウ、ディ
Di Wu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023027749A publication Critical patent/JP2023027749A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】放送音声をより感情的にすることができ、放送テキストに適切な放送スタイルを正確に決定するために放送スタイルを決定する方法、装置、機器及びコンピュータ記憶媒体を提供する。【解決手段】放送スタイルを決定する方法は、放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するステップと、少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するステップと、放送テキストとドメイン知識を使用して感情分析を行って、放送テキストの放送スタイルを決定するステップと、を含む。【選択図】図1

Description

本開示は、コンピュータアプリケーション技術の分野に関し、特に人工知能技術の分野の音声とディープラーニング技術に関する。
ますます多くのスマート端末は音声アシスタント機能が組み込まれている。音声アシスタントは音声の形式で内容の放送やユーザとの音声のインタラクションを行うことができるが、現在、音声アシスタントが放送する音声はほとんど修飾を加えず、比較的硬い言い方をする。ユーザのニーズが高まるにつれて、人々は音声アシスタントと対話して基本的な情報を満たすと同時に、音声アシスタントの放送音声がより感情的であることを望んでいる。
これに鑑みて、本開示は、放送テキストに適切な放送スタイルを正確に決定するために放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体を提供する。
本開示の第1の態様によれば、放送スタイルを決定する方法を提供し、
放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するステップと、
前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するステップと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップと、を含む。
本開示の第2の態様によれば、放送スタイルを決定する装置を提供し、
放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するエンティティ識別ユニットと、
前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する知識取得ユニットと、
前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定する感情分析ユニットと、を含む。
本開示の第3の態様によれば、電子機器を提供し、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが上記の方法を実行させる。
本開示の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の方法を実行させる。
本開示の第5の態様によれば、コンピュータプログラム製品を提供し、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行される時に上記の方法を実現する。
本明細書で説明された内容は、本開示の実施例のキーまたは重要な特徴を特定することを意図しておらず、本開示の範囲を制限するためにも使用されないことを理解されたい。本開示の他の特徴は、以下の明細書を通じて容易に理解できる。
図面は、本開示をより良く理解するためのものであり、本開示を限定しない。
本開示の実施例により提供される主な方法のフローチャートである。 本開示の実施例により提供される知識グラフ型ドメイン知識の例示的な図である。 本開示の実施例により提供される放送スタイルを決定する装置の構造図である。 本開示の実施例を実現するための電子機器のブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
現在、放送シナリオに基づいて放送スタイルを決定するなど、いくつかの既存の放送スタイルの決定方法が既に存在する。ナビゲーションシナリオでは強調トーンを使用し、観光地シナリオでは楽しいトーンなどを使用する。しかし、このような方式は適切な感情を正確に確定することができず、例えば、観光地の中で「抗日戦争記念館、徐州会戦は抗戦勃発後最も規模が大きく、兵力が最も多く、死傷者が最も深刻な会戦である」を放送すると、依然として、楽しいトーンで放送するのは明らかに適切ではない。これに鑑みて、本開示は、放送スタイルを決定するための新しいアイデアを提供し、以下、実施例と組み合わせて本開示により提供される方法を詳細に説明する。
図1は本開示の実施例により提供される主な方法のフローチャートである、当該方法の実行主体は放送スタイルを決定する装置であってもよく、当該装置は、ローカル端末のアプリケーションに位置することができるか、またはローカル端末のアプリケーション内のプラグインまたはソフトウェア開発キット(Software Development Kit、SDK)などの機能ユニットに位置することもできるか、または、サーバ側に位置することもでき、本開示の実施例はこれについて特に限定しない。図1に示すように、当該方法は、以下のステップを含むことができる。
101では、放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得する。
102では、少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する。
103では、放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定する。
上記の技術解決策により、放送テキストに含まれる名前付きエンティティに対応するドメイン知識を感情分析に組み込みて、感情分析が放送テキストの重要なオブジェクトに含まれる内在情報を捕捉し、言葉の隠された真意を捕捉し、放送テキストに適切な放送スタイルを正確に取得し、当該放送スタイルは放送音声をより感情的にすることができる。
以下は実施例を組み合わせて上記の各ステップを詳細に説明する。まず、上記のステップ101、すなわち「放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得する」を詳細に説明する。
本開示に関する放送テキストとは、音声放送を行うテキストであり、すなわち放送テキストを使用して音声合成をした後に音声放送を行う必要がある。
当該放送テキストは、予め設定された内容であってもよく、例えば、起動語の内容、ウェルカム語の内容、特定のシナリオで固定放送される内容などであってもよい。例えば、ユーザ端末がある新しい地域に位置決めする時、「XX地域へようこそ」(その中、「XX」はある具体的な地域名を表す)を放送する。また、例えば、ナビゲーションシナリオにおけるナビゲーションテキスト「前方XXXで左折する」(その中、"XXX"はある具体的な建物名を表す)などを放送する。
放送テキストは、第三者から取得されたテキスト内容であってもよく、例えば、第三者から取得されたニュース内容、文章内容などであってもよい。
放送テキストは、ユーザとインタラクション中に、ユーザが入力した音声に応答して生成されたテキストであってもよい。例えば、ユーザが音声「XXXXはどこにありますか」を入力すると、ユーザが入力した当該音声に応答して放送テキスト「XXXXは建設中路3号にあります」を生成する。
名前付きエンティティ(named entity)とは、例えば、人の名前、機関名、地名、日時、国名、製品名、及び他のすべての名前で識別されるエンティティを指す。名前付きエンティティ識別は、既に、現在比較的成熟した技術であり、辞書に基づいて識別することができ、規則に基づいて名前付きエンティティ識別を行うこともでき、機械学習アルゴリズムに基づいて識別することもでき、上記のいくつかの混合方法を使用して名前付きエンティティ識別を行うこともできる。具体的な名前付きエンティティの識別方式は、ここで詳細に説明しない。
好ましい実施方式として、放送テキストに対して名前付きエンティティ識別を行った後、予め設定された履歴期間内にユーザが放送テキストに含まれる名前付きエンティティのうちの少なくとも1つの名前付きエンティティを検索した場合、ユーザが検索した当該少なくとも1つの名前付きエンティティを後続のステップ102のドメイン知識の取得し、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも1つの名前付きエンティティをドメイン知識の取得のために用いられる。このような方式は、識別された名前付きエンティティがユーザのニーズをより満たし、ユーザがより関心する内容を反映することができる。
例えば、ユーザに対する放送テキストが「AはBの南に位置し、環境がとても美しい」であり、その中、「A」と「B」はそれぞれ2つの地名である。ユーザが1時間以内に「A」を検索した場合、「A」を本ステップで取得された名前付きエンティティとし、後続のステップ102でドメイン知識を取得するために使用することができる。ユーザが1時間以内に「A」と「B」を検索しなかった場合、「A」と「B」を本ステップで取得された名前付きエンティティとし、後続のステップ102でドメイン知識を取得するために使用する。
以下は実施例を組み合わせて上記のステップ102、すなわち「少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する」を詳細に説明する。
通常の場合に、放送テキストの感情決定は、文に粒度にに基づいている。すなわち、放送テキストに対して文分割を行う必要があり、各文について少なくとも1つの名前付きエンティティを決定し、名前付きエンティティに対応するドメイン知識を決定する。
本ステップで名前付きエンティティに対応するドメイン知識を取得する方式は、以下のいくつかを使用することができるが、これらに限定しない。
第1の方式:検索エンジンを使用して各名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位M個の検索結果をドメイン知識として取得し、前記Mは予め設定された正整数である。
例えば、放送テキストの1つの文に1つの地名しか含まれていないと仮定し、当該地名を検索した後、上位5個の検索結果タイトル、要約、図面、ビデオ又は本文などをドメイン知識とする。
放送テキストの1つの文に2つの地名が含まれていると仮定すると、当該地名をそれぞれ検索した後、2つの地名に対応する検索結果をいずれも上位5個を取得し、その10個の検索結果のタイトル、要約、図面、ビデオ又は本文などをドメイン知識とする。
第2の方式:少なくとも1つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位N個の検索結果をドメイン知識として取得し、Nは予め設定された正整数である。
例えば、放送テキストの1つの文に2つの地名、例えば、地名Aと地名Bが含まれておりと仮定すると、地名Aと地名Bをスプライシングした後に「A B」を取得し、「A B」をqueryとして使用して検索して、上位5個の検索結果タイトル、要約、図面、ビデオ又は本文などをドメイン知識として取得する。
第3の方式:予め構築された知識グラフを使用して上記の少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する。
本開示の実施例では、予め構築された知識グラフを取得することができ、知識グラフのノードは、名前付きエンティティを含み、同時に、知識グラフは各ノードの属性をさらに含む。本開示の実施例では、各名前付きエンティティに対応するタイムリーな情報を周期的に使用することができ、例えば、ニュース、ホット検索などを知識グラフ内の名前付きエンティティの属性とする。本開示では、知識グラフの具体的な構築方式に対して限定せず、知識グラフのみを使用して名前付きエンティティに対応する属性をドメイン知識として取得する。
以上の説明からも分かるように、本開示で使用されるドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも1つを含むことができる。
テキストは比較的理解しやすく、詳細に説明しない。
リッチメディアは、画像、ビデオ、オーディオなどを含むことができる。リッチメディアのドメイン知識から名前付きエンティティに含まれる感情情報を識別することもできる。例えば、1つの地域に関する画像の多くが蒼涼であると、悲傷の感情があることを示す。また、例えば、1つの地域に関する画像の多くが楽しい祝いシナリオであると、楽しみの感情があることを示す。
知識グラフは、図2に示すように、地点Aの属性が人民が安心して生活することができない、生き地獄、大崩壊などの内容を含む場合、当該地点Aには悲傷の感情があることを示す。
以下は実施例を組み合わせて上記のステップ103、すなわち「放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定する」を詳細に説明する。
放送テキストが1つの文のみを含む場合、当該文と当該文に対して決定されたドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定する。
放送テキストが1つ以上の文を含む場合、各文に対して以下のステップをそれぞれ実行し、当該ステップは、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定する。
つまり、1つの文に名前付きエンティティが含まれている場合、文の内容と当該名前付きエンティティのドメイン知識に基づいて当該文の放送スタイルを決定する。1つの文に名前付きエンティティが含まれていない場合、文の内容のみに基づいて文の放送スタイルを決定しするか、又はスムーズトーンなどのデフォルトの放送スタイルを使用する。
本開示の実施例では、文に含まれる名前付きエンティティのドメイン知識が決定された場合、文と文のドメイン知識を使用して感情分析を行う。すなわち文と文のドメイン知識を感情分析モデルに入力し、感情分析モデルによって出力された感情タイプを使用して放送テキストの放送スタイルを決定する。その中、感情分析モデルに使用される感情分析方式は、既存の任意の方式であってもよく、本開示はこれについて限定しない。例えば、以下の3つの方式を含むことができるが、これらに限定しない。
第1の方式:感情辞書に基づく感情分析。
手動又は自動の方式を使用して感情辞書を予め構築することができる。文とドメイン知識に対してセグメンテーション処理を行ってストップワードを除去した後、各単語をトラバーサルする。トラバーサルされた単語が感情辞書内の感情語である場合、当該単語に接頭辞程度語又は接頭辞否定語が存在するか否かを検索し、接頭辞程度語、接頭辞否定語、及び感情語の出現回数及び重みを使用して、当該感情語の感情スコアを計算する。最終に、各感情語の感情スコアに基づいて感情タイプを感情分析の結果として決定する。
第2の方式:機械学習に基づく感情分析。
文と文に含まれる名前付きエンティティのドメイン知識に対して特徴抽出を行い、次に、予めトレーニングされた機械学習モデルを使用して抽出された特徴に基づいて感情分類を行って、感情タイプを取得する。
その中、機械学習モデルは、ナイーブベイズ、最大エントロピー、サポートベクトルマシンなどの分類モデルを使用することができるが、これらに限定しない。
第3の方式:ディープラーニングに基づく感情分析。
文と文に含まれる名前付きエンティティのドメイン知識を予めトレーニングされたディープラーニングモデルに入力し、ディープラーニングモデルによって文とドメイン知識内の単語を単語ベクトルに変換し、次に、具体的な感情分類結果にマッピングし、感情タイプを取得する。
その中、ディープラーニングモデルは、FNN(Factorization Machine supported Neural Network、フィードフォワードニューラルネットワーク)、Word2Vec技術、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)、RNN(Recurrent Neural Network、リカレントニューラルネットワーク)又はLSTM(Long Short-Term Memory、長期短期記憶ネットワーク)ネットワークを使用することができるが、これらに限定しない。
文に対応する感情分析結果を決定する時、それぞれ文、及び各ドメイン知識を感情分析モデルにそれぞれ入力して感情分析を行い、文に対応する感情と各ドメイン知識に対応する感情を取得し、次に、取得された感情タイプに対して投票ソート(すなわち取得された感情タイプの頻度に基づいてソートする)を行って、投票で最も高い感情タイプを最終的な当該文の感情分析結果として取得することができる。
文と各ドメイン知識を1つの全体として感情分析モデルに入力して感情分析を行い、感情分析モデルによって出力された感情タイプを最終的な当該文の感情分析結果とすることもできる。
感情タイプを決定した後、感情タイプに基づいて放送テキストの放送スタイルを決定することができる。その中、感情タイプは、喜び、興奮、幸福、好き、感動、激動、驚き、憤怒、怒り、暴怒、悲傷、もの寂しい、悲惨、悲哀、温暖、退屈、心配、憂慮、憂さ、失望、落胆、抑圧などを含むことができる。放送スタイルは、平穏、悲しい、強調、快活、荘重などを含むことができる。その中、各感情タイプを放送スタイルに予めに対応する。
感情分析モデルをトレーニングする時、各放送スタイルを感情分類結果として直接に使用することもできる。このように、感情分析モデルを使用して感情分析を行う時、放送スタイルを直接取得することもできる。
また、1つの文又は放送テキスト全体で名前付きエンティティが識別されてなかった場合、当該文には関連するドメイン知識が参照することができないことを意味し、この場合、文又は放送テキストのみに対して感情分析を行いことができ、文の語義のみに基づいて感情分析を行うことに相当し、取得された感情を使用して放送することができる。又は、名前付きエンティティが識別されてなかった文又は放送テキストに対して直接にスムーズトーンなどのデフォルトの放送スタイルを使用することができる。
上記の方式の処理後、以下の文の放送スタイルを決定することができ、
Figure 2023027749000002
さらに、放送テキストの放送スタイルを取得した後、放送テキストと放送テキストの放送スタイル情報を使用して音声合成を行って、最終の放送テキストに対応する放送音声を取得する。当該放送音声は感情的である。
以下は1つの具体的な例を組み合わせて、上記の方法の実施例の実施方式に対してより鮮明な説明をする。放送テキスト:「前方はまもなくXX抗日戦争記念館-南門付近に到着する。ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い!」であると仮定する。
まず、放送テキストに対して文分割を行って、2つの文:「前方はまもなくXX抗日戦争記念館-南門付近に到着する」と「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」を取得する。その中、「XX」は1つの都市名を指す。
1番目の文に対して名前付きエンティティ識別を行った後、「XX抗日戦争記念館」を取得する。検索エンジンを使用して当該名前付きエンティティに対応する前の5個の検索結果タイトルをドメイン知識として取得する。これらの検索結果タイトルは、ほとんどの抗日戦争に関連する歴史事件を反映するため、当該文とドメイン知識を感情分析モデルに入力した後、対応する放送スタイルが荘重であるであることを取得する。
2番目の文「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」に対して名前付きエンティティ識別を行った後、名前付きエンティティを取得できない。当該文のみを感情分析モデルに入力し、対応する放送スタイルが強調であることを取得する。
そうすると、音声合成をした後に、荘重なトーンで「前方はまもなくXX抗日戦争記念館-南門付近に到着する」を放送し、強調なトーンで「ここで車線違反と歩行者優先カメラがあり、罰金が発生されることを多い」を放送する。
本開示により提供される上記の方法は、以下のアプリケーションシナリオに適用することができるが、これらに限定されず、
地図類アプリケーションにおける音声放送シナリオは、例えば、ナビゲーション音声放送、観光地情報放送などである。
端末機器又は任意のアプリケーションに搭載された音声アシスタントの音声放送シナリオである。
マートスピーカーなどのスマート端末機器とユーザの音声インタラクションシナリオである。
例えば、ニュース系アプリケーション、読書系アプリケーション、ラジオ系アプリケーションなどの放送シナリオである。例えば、ニュースを音声に変換して放送し、書籍の内容を音声に変換して放送し、ラジオ原稿を音声に自動に変換して放送する。
以上は、本開示により提供される方法を詳細に説明し、以下は実施例を組み合わせて本開示により提供される装置を詳細に説明する。
図3は本開示の実施例により提供される放送スタイルを決定する装置の構造図である。図3に示すように、当該装置300は、エンティティ識別ユニット301、知識取得ユニット302、及び感情分析ユニット303を含むことができ、文分割ユニット304をさらに含むこともできる。各構成ユニットの主な機能は以下のようであり、
エンティティ識別ユニット301は、放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するために用いられる。
知識取得ユニット302は、少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するために用いられる。
感情分析ユニット303は、放送テキストとドメイン知識を使用して感情分析を行い、放送テキストの放送スタイルを決定するために用いられる。
好ましい実現方式として、エンティティ識別ユニット301は、放送テキストに対して名前付きエンティティ識別を行い、予め設定された履歴期間内にユーザが放送テキストに含まれる名前付きエンティティのうちの少なくとも1つの名前付きエンティティを検索した場合、ユーザが検索した少なくとも1つの名前付きエンティティはドメイン知識の取得のために用いられ、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも1つの名前付きエンティティをドメイン知識の取得のために用いられることができる。
その中、知識取得ユニット302は、検索エンジンを使用して少なくとも1つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位M個の検索結果をドメイン知識としてそれぞれ取得し、Mは予め設定された正整数であり、又は、
少なくとも1つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位N個の検索結果をドメイン知識として取得し、Nは予め設定された正整数であり、又は、
予め構築された知識グラフを使用して少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するために用いられることができる。
上記のドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも1つを含む。
実現方式として、文分割ユニット304は、放送テキストに対して文分割を行うために用いられる。その中、上記の文分割ユニット304は、エンティティ識別ユニット301の前に実行することができ、図に示すのはこの場合である。他の段階で実行することもでき、感情分析ユニット303の前に実行すればよい。
これに応じて、感情分析ユニット303は、具体的には、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行い、当該文の放送スタイルを決定するために用いられる。
さらに、感情分析ユニット303は、さらに、名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定するために用いられることができる。
実現可能な方式として、感情分析ユニット303は、具体的には、放送テキストとドメイン知識を感情分析モデルに入力し、感情分析モデルによって出力された感情タイプを使用して放送テキストの放送スタイルを決定するために用いられる。
さらに、放送テキストの放送スタイルを取得した後、音声合成ユニット(図示せず)から放送テキストと放送テキストの放送スタイル情報を使用して音声合成を行って、最終の放送テキストに対応する感情がある放送音声を取得する。
本明細書の各実施例は、すべて漸進的な方式を使用して説明し、各実施例間の同一および類似の部分は、互いに参照すればよく、各実施例は、すべて他の実施例との違いについて重点的に説明する。特に、装置の実施例は、方法の実施例に基本的に類似するため、説明は比較的に簡単であり、関連するところは、方法の実施例の部分の説明を参照すればよい。
本開示の技術案において、関するユーザ個人情報の取得、記憶、応用などは、すべて関連する法律および規定を満たし、公序良俗に違反しない。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
図4に示すように、本開示の実施例に係る放送スタイルを決定する方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様の計算デバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図4に示すように、機器400は計算ユニット401を含み、計算ユニット401は、読み取り専用メモリ(ROM)402に記憶されているコンピュータプログラムまたは記憶ユニット408からランダムアクセスメモリ(RAM)403にローディングされたコンピュータプログラムに基づいて、様々な適切な動作と処理を実行することができる。RAM403には、機器400が動作するに必要な様々なプログラムとデータも記憶することができる。計算ユニット401、ROM402、およびRAM403は、バス404を介してお互いに接続される。入出力(I/O)インターフェース405もバス404に接続される。
機器400内の複数のコンポーネントは、I/Oインターフェース405に接続されており、キーボード、マウスなどの入力ユニット406と、様々なタイプのディスプレイ、スピーカなどの出力ユニット407と、ディスク、光ディスクなどの記憶ユニット408と、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット409と、を含む。通信ユニット409は、機器400が、インターネットなどのコンピュータネットワーク、および/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット401は、様々な処理と計算能力を備える汎用および/または専用の処理コンポーネントである。計算ユニット401のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット401は、放送スタイルを決定する方法などの上記の様々な方法と処理を実行する。例えば、いくつかの実施例では、放送スタイルを決定する方法は、記憶ユニット408などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。
いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM402および/または通信ユニット409を介して機器400にローディングおよび/またはインストールされる。コンピュータプログラムがRAM403にローディングされて計算ユニット401によって実行される場合、上記の放送スタイルを決定する方法の一つまたは複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット401は、他の任意の適切な方式(例えば、ファームウェアによって)を介して放送スタイルを決定する方法を実行するように構成されることができる。
本明細書で説明されるシステムと技術の様々な実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ローディングプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施方式は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、一つまたは複数のプログラミング言語の任意の組み合わせを使用して作成することができる。これらのプログラムコードは、プログラムコードがプロセッサまたはコントローラによって実行される時にフローチャートおよび/またはブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行されたり、部分的に機械上で実行されたり、独立したソフトウェアパッケージとして部分的に機械上で実行され、部分的にリモート機械上実行されたり、または完全にリモート機械またはサーバ上で実行されたりすることができる。
本開示の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、または機器の使用、または命令実行システム、装置または機器と組み合わせて使用するプログラムを含むか、または記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム、装置または機器、または上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、一つまたは複数のワイヤに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM またはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記の内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウド計算またはクラウドホストとも呼ばれ、クラウド計算サービスシステムの中の一つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に、存在する管理困難度が高く、業務拡張性が弱い欠陥を解決する。サーバは、分散システムのサーバであってもよく、またはブロックチェーンを組み合わせるサーバであってもよい。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施方式は、本開示に対する保護範囲の制限を構成するものではない。当業者は、設計要求と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (17)

  1. 放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するステップと、
    前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するステップと、
    前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップと、を含む、
    放送スタイルを決定する方法。
  2. 放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するステップは、
    放送テキストに対して名前付きエンティティ識別を行うステップと、
    予め設定された履歴期間内にユーザが前記放送テキストに含まれる名前付きエンティティのうちの少なくとも1つの名前付きエンティティを検索した場合、ユーザが検索した前記少なくとも1つの名前付きエンティティをドメイン知識の取得に用い、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも1つの名前付きエンティティをドメイン知識の取得に用いるステップと、を含む、
    請求項1に記載の放送スタイルを決定する方法。
  3. 前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するステップは、
    検索エンジンを使用して前記少なくとも1つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位M個の検索結果をドメイン知識としてそれぞれ取得し、前記Mは予め設定された正整数であり、又は、
    前記少なくとも1つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位N個の検索結果をドメイン知識として取得し、前記Nは予め設定された正整数であり、又は、
    予め構築された知識グラフを使用して前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得するステップと、を含む、
    請求項1に記載の放送スタイルを決定する方法。
  4. 前記ドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも1つを含む、
    請求項1又は3に記載の放送スタイルを決定する方法。
  5. 前記放送テキストに対して文分割を行うステップをさらに含み、
    前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップは、
    各文に対して、それぞれ、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行って当該文の放送スタイルを決定するステップを含む、
    請求項1に記載の放送スタイルを決定する方法。
  6. 名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定するステップをさらに含む、
    請求項5に記載の放送スタイルを決定する方法。
  7. 前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定するステップは、
    前記放送テキストと前記ドメイン知識を感情分析モデルに入力し、前記感情分析モデルによって出力された感情タイプを使用して前記放送テキストの放送スタイルを決定するステップを含む、
    請求項1に記載の放送スタイルを決定する方法。
  8. 放送テキストに対して名前付きエンティティ識別を行い、少なくとも1つの名前付きエンティティを取得するエンティティ識別ユニットと、
    前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する知識取得ユニットと、
    前記放送テキストと前記ドメイン知識を使用して感情分析を行って、前記放送テキストの放送スタイルを決定する感情分析ユニットと、を含む、
    放送スタイルを決定する装置。
  9. 前記エンティティ識別ユニットは、放送テキストに対して名前付きエンティティ識別を行い、予め設定された履歴期間内にユーザが前記放送テキストに含まれる名前付きエンティティのうちの少なくとも1つの名前付きエンティティを検索した場合、ユーザが検索した前記少なくとも1つの名前付きエンティティをドメイン知識の取得に用い、それ以外の場合、名前付きエンティティ識別によって取得された少なくとも1つの名前付きエンティティをドメイン知識の取得に用いる、
    請求項8に記載の放送スタイルを決定する装置。
  10. 前記知識取得ユニットは、
    検索エンジンを使用して前記少なくとも1つの名前付きエンティティをそれぞれ検索し、各名前付きエンティティに対応する上位M個の検索結果をドメイン知識としてそれぞれ取得し、前記Mは予め設定された正整数であり、又は、
    前記少なくとも1つの名前付きエンティティをスプライシングし、検索エンジンを使用してスプライシングされたエンティティを検索して、上位N個の検索結果をドメイン知識として取得し、前記Nは予め設定された正整数であり、又は、
    予め構築された知識グラフを使用して前記少なくとも1つの名前付きエンティティに対応するドメイン知識を取得する、
    請求項8に記載の放送スタイルを決定する装置。
  11. 前記ドメイン知識は、テキスト、リッチメディア、及び知識グラフのうちの少なくとも1つを含む、
    請求項8又は10に記載の放送スタイルを決定する装置。
  12. 前記放送テキストに対して文分割を行う文分割ユニットをさらに含み、
    前記感情分析ユニットは、文と当該文に含まれる名前付きエンティティに対応するドメイン知識を使用して感情分析を行って、当該文の放送スタイルを決定する、
    請求項8に記載の放送スタイルを決定する装置。
  13. 前記感情分析ユニットは、名前付きエンティティを含まない文について、当該文の内容を使用して感情分析を行って、当該文の放送スタイルを決定し、又は当該文がデフォルトの放送スタイルを使用することを決定する、
    請求項12に記載の放送スタイルを決定する装置。
  14. 前記感情分析ユニットは、前記放送テキストと前記ドメイン知識を感情分析モデルに入力し、前記感情分析モデルによって出力された感情タイプを使用して前記放送テキストの放送スタイルを決定する、
    請求項8に記載の放送スタイルを決定する装置。
  15. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも一つのプロセッサにより実行されると、前記少なくとも一つのプロセッサが請求項1~3、及び5~7のいずれか一項に記載の放送スタイルを決定する方法を実行する、
    電子機器。
  16. コンピュータに請求項1~3、及び5~7のいずれか一項に記載の放送スタイルを決定する方法を実行させるコンピュータ命令が記憶されている、非一時的なコンピュータ読み取り可能な記憶媒体。
  17. プロセッサによって実行される時に請求項1~3、及び5~7のいずれか一項に記載の放送スタイルを決定する方法を実現するコンピュータプログラム。
JP2022092559A 2021-08-17 2022-06-07 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体 Pending JP2023027749A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110941665.2 2021-08-17
CN202110941665.2A CN113850083A (zh) 2021-08-17 2021-08-17 确定播报风格的方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
JP2023027749A true JP2023027749A (ja) 2023-03-02

Family

ID=78975773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022092559A Pending JP2023027749A (ja) 2021-08-17 2022-06-07 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体

Country Status (5)

Country Link
US (1) US20230067177A1 (ja)
EP (1) EP4137986A1 (ja)
JP (1) JP2023027749A (ja)
KR (1) KR20230026259A (ja)
CN (1) CN113850083A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979682B (zh) * 2022-04-19 2023-10-13 阿里巴巴(中国)有限公司 多主播虚拟直播方法以及装置
WO2024073327A1 (en) * 2022-09-30 2024-04-04 Visa International Service Association Semi-supervised system for domain specific sentiment learning

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121698A (zh) * 2017-11-29 2018-06-05 张宁 中文文字情绪识别方法及系统
CN108962219B (zh) * 2018-06-29 2019-12-13 百度在线网络技术(北京)有限公司 用于处理文本的方法和装置
CN110362667A (zh) * 2019-07-12 2019-10-22 深圳前海微众银行股份有限公司 智能客服方法、装置、设备及可读存储介质
US11380300B2 (en) * 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text
CN110941954B (zh) * 2019-12-04 2021-03-23 深圳追一科技有限公司 文本播报方法、装置、电子设备及存储介质
CN111667811B (zh) * 2020-06-15 2021-09-07 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质
CN112116905B (zh) * 2020-09-16 2023-04-07 珠海格力电器股份有限公司 一种将备忘录信息转化为闹钟播放的方法及装置
CN111832275B (zh) * 2020-09-21 2022-02-25 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
CN112270920A (zh) * 2020-10-28 2021-01-26 北京百度网讯科技有限公司 一种语音合成方法、装置、电子设备和可读存储介质
CN112541078A (zh) * 2020-12-10 2021-03-23 平安科技(深圳)有限公司 新闻智能播报方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR20230026259A (ko) 2023-02-24
CN113850083A (zh) 2021-12-28
US20230067177A1 (en) 2023-03-02
EP4137986A1 (en) 2023-02-22

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
US11915692B2 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US10515086B2 (en) Intelligent agent and interface to provide enhanced search
US11354521B2 (en) Facilitating communications with automated assistants in multiple languages
CN110288985B (zh) 语音数据处理方法、装置、电子设备及存储介质
CN105701254B (zh) 一种信息处理方法和装置、一种用于信息处理的装置
CN110301117B (zh) 用于在会话中提供响应的方法和装置
US20170243107A1 (en) Interactive search engine
US20170242886A1 (en) User intent and context based search results
CN109145104B (zh) 用于对话交互的方法和装置
JP2023027749A (ja) 放送スタイルを決定する方法、装置、機器、及びコンピュータ記憶媒体
JP2013521567A (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN115082602B (zh) 生成数字人的方法、模型的训练方法、装置、设备和介质
WO2021051514A1 (zh) 一种语音识别方法、装置、计算机设备及非易失性存储介质
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN113672699A (zh) 基于知识图谱的nl2sql生成方法
CN111324626B (zh) 基于语音识别的搜索方法、装置、计算机设备及存储介质
CN116343771A (zh) 一种基于知识图谱的音乐点播语音指令识别方法、装置
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
Sucameli et al. Toward data-driven collaborative dialogue systems: the JILDA dataset
CN110942775B (zh) 数据处理方法、装置、电子设备及存储介质
KR102120748B1 (ko) 대화 이해 ai 시스템에 의하여, 계층적으로 저장되어 있는 북마크에 대한 문맥기반 검색 서비스를 제공하는 방법 및 컴퓨터 판독가능 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240305