JP6928642B2 - 音声放送方法及び装置 - Google Patents

音声放送方法及び装置 Download PDF

Info

Publication number
JP6928642B2
JP6928642B2 JP2019503523A JP2019503523A JP6928642B2 JP 6928642 B2 JP6928642 B2 JP 6928642B2 JP 2019503523 A JP2019503523 A JP 2019503523A JP 2019503523 A JP2019503523 A JP 2019503523A JP 6928642 B2 JP6928642 B2 JP 6928642B2
Authority
JP
Japan
Prior art keywords
broadcast
target
tag set
tag
broadcasting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019503523A
Other languages
English (en)
Other versions
JP2019533212A (ja
Inventor
リンジン チュ,
リンジン チュ,
ヨンギョ カン,
ヨンギョ カン,
ヤンカイ チュ,
ヤンカイ チュ,
ベン チュ,
ベン チュ,
ハイガン ユアン,
ハイガン ユアン,
ラン チュ,
ラン チュ,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019533212A publication Critical patent/JP2019533212A/ja
Application granted granted Critical
Publication of JP6928642B2 publication Critical patent/JP6928642B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Transfer Between Computers (AREA)
  • Circuits Of Receivers In General (AREA)

Description

優先権情報
本発明は、バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドが2017年07月05日付に提出した、発明の名称が「音声放送方法及び装置」で、中国特許出願番号が「201710541569.2」である特許出願の優先権を主張するものである。
本発明は、音声処理技術の分野に関し、特に音声放送方法及び装置に関するものである。
音声インタラクション型製品の成長に伴って、音声放送効果が、ますますユーザの注目を集めている。現在、リアルな人間による放送の放送効果は、ユーザの期待を満たすことができるとともに、感情を伝える役割を果たすことができるが、リアルな人間による放送の人件費が比較的高い。
人件費を低減するために、現在大抵はテキストトゥスピーチ(Text To Speech、TTSと略される)の放送方式で放送する必要のあるコンテンツや情報を放送する。
本発明は、関連技術における少なくとも1つの技術的課題をある程度で解決することを目的とする。
そのため、本発明の1つ目の目的は、放送時に被放送コンテンツに含まれる感情を視聴者に伝えて、視聴者がコンテンツに含まれた感情を聴覚上で感じ取れることを実現し、また、従来のTTS放送方式による放送効果が、感情伝達の作用を奏することができず、聴取者が聴覚上で放送する必要のあるコンテンツ又は情報に含まれた感情を感じ取れないという課題を解決する音声放送方法を提供することである。
本発明の2つ目の目的は、音声放送装置を提供することである。
本発明の3つ目の目的は、スマート機器を提供することである。
本発明の4つ目の目的は、コンピュータプログラム製品を提供することである。
本発明の5つ目の目的は、コンピュータ読み取り可能な記憶媒体を提供することである。
上記目的を達成するために、本発明の第1態様の実施形態は、被放送対象を取得するステップと、前記被放送対象の目標対象タイプを認識するステップと、前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得するステップと、前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送するステップとを含む音声放送方法を提供する。
本発明の実施形態に係る音声放送方法は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上でコンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の1つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。
上記目的を達成するために、本発明の第2態様の実施形態は、被放送対象を取得する第1取得モジュールと、前記被放送対象の目標対象タイプを認識する認識モジュールと、前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する第2取得モジュールと、前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送する放送モジュールとを備える音声放送装置を提供する。
本発明の実施形態に係る音声放送装置は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上で当該コンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の1つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。
上記目的を達成するために、本発明の第3態様の実施形態において提供するスマート機器は、メモリと、プロセッサとを備え、該プロセッサは、前記メモリに記憶されている実行可能プログラムコードを読み出して、前記実行可能プログラムコードに対応するプログラムを実行して本発明の第1態様の実施形態に係る音声放送方法を実現する。
上記目的を達成するために、本発明の第4態様の実施形態において提供するコンピュータプログラム製品は、命令がプロセッサによって実行される場合、第1態様の実施形態に係る音声放送方法が実行される。
上記目的を達成するために、本発明の第5態様の実施形態において提供するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラムがプロセッサによって実行される場合、第1態様の実施形態に係る音声放送方法が実現される。
本発明の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになる、又は本発明の実践により理解される。
本発明の実施形態における技術案をより明確に説明するために、以下、実施形態において使用する必要のある図面について簡単に説明する。明らかに、以下の説明における図面は、本開示の一部の実施例であり、当業者であれば、創造的尽力を払うことはなく、これらの図面に基づいて他の図面をさらに取得することができる。
本発明の一実施形態において提供される音声放送方法の概略フローチャートである。 本発明の他の実施形態において提供される音声放送方法の概略フローチャートである。 本発明の他の実施形態において提供される音声放送方法の概略フローチャートである。 本発明の一実施形態において提供される音声放送装置の概略構成図である。 本発明の他の実施形態において提供される音声放送装置の概略構成図である。 本発明の一実施形態において提供されるスマート機器の概略構成図である。
以下、本発明の実施形態を詳細に説明する。本実施形態における一例が図面に示され、同一又は類似する符号は、常に同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施形態は例示するものであり、本発明を解釈するために用いられることを目的とし、本発明を限定するものと理解されるものではない。
以下、図面を参照して、本発明の一実施形態に係る音声放送方法及び装置を説明する。
図1は、本発明の一実施形態において提供される音声放送方法の概略フローチャートである。
図1に示されるように、音声放送方法は、以下のステップS101と、ステップS102と、ステップS103とを含む。
ステップS101において、被放送対象を取得する。
本発明の一実施形態において、被放送対象は、放送する必要のあるコンテンツ又は情報である。
また、例えば、バイドォウ(百度)アプリのような電子機器における関連アプリケーションプログラムによって被放送対象を取得して放送してもよい。ユーザが電子機器にインストールされた関連アプリケーションプログラムを作動させた後、ユーザは、放送する必要のあるコンテンツ又は情報を音声/テキストで入力することができる。
ここで、電子機器は、例えば、パーソナルコンピュータ(Personal Computer,PC)、クラウド機器、モバイル機器であり、モバイル機器は、例えば、スマートフォンやタブレットなどである。
例えば、電子機器にインストールされた関連アプリケーションプログラムがバイドォウアプリであるとすると、ユーザが被放送対象に含まれた感情を聴覚上で感じたい場合、バイドォウアプリをクリックしてバイドォウアプリインターフェースにアクセスし、インタフェースにおける「押さえながら話す」ボタンを長押しして、「バイドォウAI音声アシスタント(Duer)」を音声で入力した後、バイドォウAI音声アシスタントプラグインにアクセスすることができ、さらに、ユーザは、放送する必要のあるコンテンツ又は情報を音声/テキスト入力の方式で決定することができ、その後、度秘プラグインは、放送する必要のあるコンテンツ又は情報を取得し、即ち被放送対象を取得することができる。
ステップS102において、被放送対象の目標対象タイプを認識する。
異なる放送対象が異なる対象タイプを有し、異なる対象タイプについて、その放送ルールも異なるため、目標対象タイプに基づいて、マッチングする放送ルールを選択して被放送対象を放送するために、被放送対象を放送する前に、被放送対象の目標対象タイプを認識する必要がある。
また、被放送対象のキー情報に基づいて、被放送対象の目標対象タイプを認識することができ、例えば、対象タイプは、詩詞、天気、時間、計算などであってもよい。
被放送対象のキー情報は、例えば、被放送対象のソース(アプリケーションプログラム)であってもよいし、被放送対象のタイトルであってもよいし、被放送対象の識別コードであってもよいが、これについて限定しない。
ステップS103において、目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する。
異なる対象タイプが異なる放送ルールを有するため、放送ルールに対して、対象タイプに対応する放送タグ集合を形成することができ、その後、対象タイプと放送タグ集合とのマッピング関係をあらかじめ構築し、被放送対象の目標対象タイプを決定する際に、対象タイプと放送タグ集合とのマッピング関係をクエリして、その中から、被放送対象とマッチングする放送タグ集合を取得することができる。
ここで、放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。
休止タグは、単語レベル、フレーズレベル、短句レベル、センテンスレベル、時間ごとの休止のタグを構築して実現する。
アクセントタグは、大きさが異なるアクセントタグを構築して実現する。
ボリュームタグ、音調タグ、音声速度タグ、及び太さタグは、対応する放送をパーセンテージで調節するタグを構築して実現する。
オーディオ導入タグは、テキストにオーディオファイルを挿入するタグを構築する。
同形異音語識別子タグは、同形異音語の正確な読み方をつけることができるタグを構築する。
数字読み方識別子タグは、整数、数字列、得点、分数、電話番号、郵便番号などを含む数字の正確な読み方を付けることができるタグを構築する。
音源タグは、発音者を選択することができるタグを構築する。
一例を挙げると、目標対象タイプが詩詞である場合、詩詞は、中華民族の伝統文化として、朗読中に独自の特色のある音韻、音律を有するため、詩詞の朗読ルールに基づいて、詩詞とマッチングする放送タグ集合を形成することができる。五言詩の一句「床前明月光」を例として、五言詩の朗読ルールに基づいて、「床前」の後に単語レベルの休止を入れる必要があるとマークアップすることができ、1つの休止タグを設定し、休止タグは、「床前」の2文字の後で休止すること、すなわち、2つ目の文字の後で休止することを示すことができる。「明」をアクセントで読む必要があるため、1つのアクセントタグを設定し、休止タグは、「明」の文字をアクセントで読むこと、すなわち、3つ目の文字をアクセントで読むことを示すことができる。「光」を少し延長させる必要があるため、1つの音声速度タグを設定し、音声速度タグは、「光」の文字を少し延長させること、すなわち、4つ目の文字を少し延長させ、「光」の文字の放送時間を延長させることを示すことができる。また、放送タグ集合におけるタグを追加することにより、「床前明月光」をマークアップして、これを一例として、五言詩一首を全部マークアップすることができ、最終的に、完全なフォームを出力して、五言詩とマッチングする、単語レベルの休止タグ、アクセントタグ、及び音声速度タグなどを含む放送タグ集合を合成する。
ステップS104において、放送タグ集合によって特徴付けられた放送ルールに基づいて被放送対象を放送する。
五言詩を一例として、具体的に適用するとき、被放送対象の対象タイプが五言詩であると決定された場合、五言詩とマッチングする放送タグ集合を追加して、放送タグ集合によって特徴付けられた放送ルールに基づいて、五言詩を放送すれば、五言詩の感情こもった朗読効果を実現することができる。
本実施形態に係る音声放送方法は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上でコンテンツに含まれた感情を感じ取れることを実現することができる。本実施例において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語(Speech Synthesis Markup Language、SSMLと略される)仕様の1つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。
さらに、本発明の一実施形態においては、ユーザの放送ニーズに応じて、カスタマイズ放送タグを形成することもできる。具体的には、本発明の他の実施形態において提供される音声放送方法の概略フローチャートである図2を参照する。
図2を参照して、音声放送方法は、以下のステップS201〜ステップS210を含むことができる。
ステップS201において、対象タイプのそれぞれに対して、異なる対象タイプの放送ルールを取得する。
異なる対象タイプが異なる放送ルールを有するため、あらかじめ対象タイプのそれぞれに対して、異なる対象タイプの放送ルールを取得することができる。例えば、対象タイプが詩詞であることを例として、放送ルールは、詩詞の朗読ルールである。
ステップS202において、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成する。
例えば、対象タイプが詩詞である場合、詩詞の朗読ルールに基づいて、詩詞とマッチングする放送タグ集合を形成することができる。五言詩の一句「床前明月光」を一例として、五言詩の朗読ルールに基づいて、「床前」の後に単語レベルの休止を入れる必要があるとマークアップすることができ、1つの休止タグを設定し、休止タグは、「床前」の2文字の後で休止することすなわち、2つ目の文字の後で休止することを示すことができる。「明」をアクセントで読む必要があるため、1つのアクセントタグを設定し、休止タグは、「明」の文字をアクセントで読むこと、すなわち、3つ目の文字をアクセントで読むことを示すことができる。「光」を少し延長させる必要があるため、1つの音声速度タグを設定し、音声速度タグは、「光」の文字を少し延長させること、すなわち、4つ目の文字を少し延長させ、「光」の文字の放送時間を延長させることを示すことができ。また、放送タグ集合におけるタグを追加することにより、「床前明月光」をマークアップして、これを例として、五言詩一首を全部マークアップすることができ、最終的に、完全なフォームを出力して、五言詩とマッチングする、単語レベルの休止タグ、アクセントタグ、及び音声速度タグなどを含む放送タグ集合を合成する。
ステップS203において、対象タイプと放送タグ集合とのマッピング関係を構築する。
また、対象タイプと放送タグ集合とのマッピング関係を構築してもよい。被放送対象の目標対象タイプが決定される場合、マッピング関係をクエリして、その中から、被放送対象とマッチングする放送タグ集合を取得することができ、実現しやすく、かつ操作が簡単である。
ステップS204において、被放送対象を取得する。
ステップS205において、被放送対象の目標対象タイプを認識する。
ステップS206において、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリして、被放送対象とマッチングする第1放送タグ集合を取得する。
第1放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。
ステップS204〜S206の実行プロセスは、上記実施形態を参照することができ、ここでは、説明を省略する。
ステップS207において、ユーザの放送ニーズを取得する。
例えば、目標対象タイプが天気である場合、天気を放送するとき、特に雨天を放送するとき、ユーザの放送ニーズは、例えば、天気を放送するとともに、雨の音が流れることができ、また、外出するときに傘を持つようユーザに注意を呼びかけることができるということであってもよいし、雹を放送するとき、ユーザの放送ニーズは、例えば、天気を放送するとともに、雹が降る音を流れることができ、できるだけ外出しないようユーザに注意を呼びかけることができてもよい。
ステップS208において、放送ニーズに基づいて、被放送対象とマッチングする第2放送タグ集合を形成する。
本発明の実施形態において、第2タグ集合は、背景音タグ、英語読み方タグ、詩詞タグ、音声絵文字タグなどを含む。
ここで、背景音タグは、オーディオ導入タグを実現した上で、背景音タグを構築して、放送コンテンツとオーディオ効果とを組み合わせる。
英語読み方タグは、同形異音語識別子タグの実現方式と同様に、アルファベットで読むか、単語で読むかを区別するタグを構築することができる。
詩詞タグは、詩詞タイプや詩詞の名前に基づいて、詩詞を分類し、各タイプに対して、音韻などの朗読ルールをそれぞれマークアップして、第1放送タグ集合におけるタグを組み合わせることにより、詩詞カテゴリーハイレベルタグを生成する。
音声絵文字タグは、異なる感情及び場面で使用可能なオーディオファイルライブラリを構築し、異なる各場面に対応するリソースを導入して音声放送絵文字を生成する。例えば、天気をクエリするとき、雨であると、対応する雨の音が放送される。
例えば、目標対象タイプが天気である場合、被放送対象とマッチングする第2放送タグ集合は、背景音タグであってもよい。具体的に適用する場合、背景音タグを追加することにより、天気を放送するとき、雨の音又は雹の音が流れることを実現することができる。
また、例えば、被放送対象が英語である場合、被放送対象とマッチングする第2放送タグ集合は、英語読み方タグであってもよい。具体的に適用する場合、英語読み方タグを追加することにより、英語の感情のこもった朗読効果を実現することができる。
さらに、例えば、目標対象タイプが詩詞である場合、被放送対象とマッチングする第2放送タグ集合は、詩詞タグであってもよい。具体的に適用する場合、詩詞タグを追加することにより、詩詞の感情のこもった朗読効果を実現することができる。
このステップにおいて、ユーザの放送ニーズに基づいて、被放送対象とマッチングする第2放送タグ集合を形成することにより、音声放送のパーソナライズカスタマイズを実現し、音声放送方法の適用性を効果的に向上させ、ユーザの体験を向上させることができる。
ステップS209において、第1放送タグ集合及び第2放送タグ集合を利用して、放送タグ集合を形成する。
詩詞の放送を例として、朗読ルールに基づいて、第1放送タグ集合を形成し、放送ニーズとマッチングする第2放送タグ集合を詩詞タグとすることができる。その後、第1放送タグ集合及び第2放送タグ集合を利用して、放送タグ集合を形成することができる。
天気放送を一例として、被放送コンテンツに基づいて第1放送タグ集合を取得し、放送ニーズとマッチングする第2放送タグ集合を背景音タグとすることができる。その後、第1放送タグ集合及び第2放送タグ集合を利用して、放送タグ集合を形成することができる。具体的には、背景音タグと固定放送コンテンツとを用いて単一の放送効果を実現し、異なる天気における異なる放送効果を順次にマークアップして、最終的に天気の放送タグ集合を生成することができる。
ステップS210において、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。
天気の放送を例として、天気を放送すると場合、天気の放送タグ集合及び天気のキーワードに基づいて、異なるユーザのニーズの効果を放送することができる。
ステップS210の実行プロセスは、上記実施形態を参照することができ、ここでは、説明を省略する。
本実施形態に係る音声放送方法は、対象タイプのそれぞれに対して、異なる対象タイプにおける放送ルールを取得し、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成し、対象タイプと放送タグ集合とのマッピング関係を構築することにより、実現しやすく、かつ操作が簡単である。被放送対象を取得し、被放送対象の目標対象タイプを認識し、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする第1放送タグ集合を取得し、ユーザの放送ニーズを取得し、放送ニーズに基づいて、被放送対象とマッチングする第2放送タグ集合を形成し、第1放送タグ集合及び第2放送タグ集合を利用して、放送タグ集合を形成し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送することにより、音声放送のパーソナライズカスタマイズを実現し、音声放送方法の適用性を効果的に向上させ、ユーザの体験を向上させることができる。
上記実施形態を具体的に説明するために、図3を参照し、図2に示す実施形態に基づいて、ステップS209は、具体的には、以下のサブステップS301〜サブステップS303を含む。
ステップS301において、第1放送タグ集合から一部の放送タグを選定して第1目標放送タグ集合を形成する。
なお、第1放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。被放送対象を放送するには、その中の一部のタグしか使わない可能性があるため、具体的に使用する際に、第1放送タグ集合から、今回の放送に係る一部の放送タグを選定して、第1目標放送タグ集合を形成することができ、対応性が高く、システムの処理効率が向上する。
ステップS302において、第2放送タグ集合から一部の放送タグを選択して第2目標放送タグ集合を形成する。
なお、ユーザの放送ニーズとマッチングする放送タグ集合は、第2放送タグ集合におけるいくつかの放送タグしか含まない可能性がある。例えば、天気を放送する場合、ユーザの放送ニーズとマッチングする放送タグ集合が背景音タグだけであるため、第2放送タグ集合から、一部の放送タグを選択して第2目標放送タグ集合を形成することができ、対応性が高く、システムの処理効率が向上する。
天気の放送を一例として、第2放送タグ集合から背景音タグを選択して第2目標放送タグ集合を形成することができる。
詩詞の放送を一例として、第2放送タグ集合から詩詞タグを選択して第2目標放送タグ集合を形成することができる。
ステップS303において、第1目標放送タグ集合及び/又は第2目標放送タグ集合を利用して、放送タグ集合を形成する。
本実施形態に係る音声放送方法は、第1放送タグ集合から一部の放送タグを選定して第1目標放送タグ集合を形成し、第2放送タグ集合から一部の放送タグを選択して第2目標放送タグ集合を形成し、第1目標放送タグ集合及び/又は第2目標放送タグ集合を利用して、放送タグ集合を形成することにより、音声放送のパーソナライズカスタマイズを実現することができ、適合性が高く、システムの処理効率が効果的に向上する。
上記実施形態を実現するために、本発明は、音声放送装置をさらに提供する。
図4は、本発明の一実施形態において提供される音声放送装置の概略構成図である。
図4に示されるように、音声放送装置400は、第1取得モジュール410と、認識モジュール420と、第2取得モジュール430と、放送モジュール440とを備える。
第1取得モジュール410は、被放送対象を取得する。
認識モジュール420は、被放送対象の目標対象タイプを認識する。
さらに、認識モジュール420は、具体的には、被放送対象のキー情報に基づいて、被放送対象の目標対象タイプを認識する。
第2取得モジュール430は、目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する。
放送モジュール440は、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。
さらに、本発明の実施形態の実現可能な方式において、図4に基づいて、図5を参照して、音声放送装置400は、対象タイプのそれぞれに対して、異なる対象タイプにおける放送ルールを取得し、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成し、対象タイプと放送タグ集合とのマッピング関係を構築する構築モジュール450をさらに備える。
本発明の実施形態の実現可能な方式において、第2取得モジュール430は、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする、放送タグ集合である第1放送タグ集合を取得するクエリ取得ユニット431と、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする第1放送タグ集合を取得した後、ユーザの放送ニーズを取得するニーズ取得ユニット432と、放送ニーズに基づいて、被放送対象とマッチングする第2放送タグ集合を形成する第1形成ユニット433と、第1放送タグ集合及び第2放送タグ集合を利用して、放送タグ集合を形成する第2形成ユニット434とを備える。
さらに、第2形成ユニット434は、具体的には、第1放送タグ集合から一部の放送タグを選定して第1目標放送タグ集合を形成し、第2放送タグ集合から一部の放送タグを選択して第2目標放送タグ集合を形成し、第1目標放送タグ集合及び/又は第2目標放送タグ集合を利用して、放送タグ集合を形成する。
なお、前述した図1〜図3の実施形態で音声放送方法の実施形態に対する解釈説明は、本実施形態に係る音声放送装置400にも適用し、ここでは、説明を省略する。
本実施形態に係る音声放送装置は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上で当該コンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の1つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。
図6は、本発明の実施形態を実現するための例示的なスマート機器20のブロック図を示している。図6に示されるスマート機器20は、単なる1つの例であり、本発明の実施形態の機能及び使用範囲について一切限定しない。
図6に示されるように、スマート機器20は、汎用コンピューティングデバイスの形態で示されている。スマート機器20の構成要素は、少なくとも1つのプロセッサ又は処理ユニット21と、システムメモリ22と、異なるシステムの構成要素(システムメモリ22と処理ユニット21とを備える)を接続するバス23とを備えるが、これらに限定されない。
バス23は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ、又は多様なバス構造のいずれかのバス構造を使用するローカルバスを含む、いくつかのタイプのバス構造のうちの少なくとも1つを表す。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、以下ISAと略する)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture、以下MCAと略する)バス、拡張ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、以下VESAと略する)ローカルバス、及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection、以下PCIと略する)バスを含むが、これらに限定されない。
スマート機器20は、一般的に、複数種類のコンピュータシステム読み取り可能な媒体を有する。これらの媒体は、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む、スマート機器20によってアクセスされ得る任意の使用可能な媒体であってもよい。
システムメモリ22は、ランダムアクセスメモリ(Random Access Memory、以下RAMと略する)30及び/又はキャッシュメモリ32のような揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。スマート機器は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでいてもよい。一例とするが、ストレージシステム34は、ノンリムーバブル、不揮発性磁気媒体(図6に図示せず、一般的に「ハードディスクドライブ」と称される)に対して読み出し及び書き込みをするために用いることができる。図6に示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク(例えば、シーディーロム(Compact Disc Read Only Memory、以下CD−ROMと略する)、ディーブイディーロム(Digital Video Disc Read Only Memory、以下DVD−ROMと略する)又は他の光学媒体)に対して読み出し及び書き込みをするための光ディスクドライブを提供することができる。これらの場合、各ドライブは、少なくとも1つのデータメディアインターフェイスを介してバス23に接続することができる。システムメモリ22は、本発明の各実施形態に記載の機能を実行するように構成される1セットの(例えば、少なくとも1つ)プログラムモジュールを有する少なくとも1つのプログラム製品を含んでもよい。
1セットの(少なくとも1つ)プログラムモジュール42を有するプログラム/ユーティリティ40は、例えば、システムメモリ22に記憶されてもよく、このようなプログラムモジュール42は、オペレーティングシステム、少なくとも1つのアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これらに限定されない。これらの一例のそれぞれ又はある組み合わせには、ネットワーキング環境の実装が含まれる可能性がある。プログラムモジュール42は、一般的に、本発明に記載の実施形態における機能及び/又は方法を実行する。
スマート機器20は、少なくとも1つの外部デバイス50(例えば、キーボード、ポインティングデバイス、ディスプレイ60など)と通信することができ、また、ユーザがスマート機器20とインタラクションすることを可能にする少なくとも1つのデバイスと通信することができ、及び/又は、スマート機器20が少なくとも1つの他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信することもできる。そのような通信は、入力/出力(I/O)インタフェース24を介して行うことができる。また、スマート機器20は、ネットワークアダプタ25を介して、1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、以下LANと略する)、ワイドエリアネットワーク(Wide Area Network、以下WANと略する)、及び/又はパブリックネットワーク、例えば、インターネット)と通信することができる。図に示されるように、ネットワークアダプタ25は、バス23を介してスマート機器20の他のモジュールと通信する。なお、図示されていないが、マイクロコード、デバイスドライバ、冗長化処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライバ、及びデータバックアップストレージシステムなどを含むが、これらに限定されない、他のハードウェア及び/又はソフトウェアモジュールをスマート機器20と組み合わせて使用することができる。
処理ユニット21は、システムメモリ22に記憶されているプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、図1〜図3に示される音声放送方法を実現する。
少なくとも1つのコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な一例(非限定的なリスト)として、少なくとも1つの配線を備える電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(Read Only Memory、以下ROMと略する)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read Only Memory、以下EPROMと略する)又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD−ROM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この明細書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。
コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載される。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。
コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。
少なくとも1つのプログラミング言語又はそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、プログラミング言語は、Java(登録商標)、Smalltalk、C++などのプロジェクト指向のプログラミング言語を含み、さらに、「C」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク(Local Area Network、以下LANと略する)又は広域ネットワーク(Wide Area Network、以下WANと略する)を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ(例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する)に接続することもできる。
上記実施形態を実現するために、本発明は、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品における命令がプロセッサによって実行される場合、上記実施形態に係る音声放送方法を実行する。
上記実施形態を実現するために、本発明は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、上記実施形態に係る音声放送方法を実現可能である。
本発明の説明において、「一実施形態」、「他の実施形態」、「一例」、「具体的な地例」、或いは「他の一例」などの用語を参考した説明とは、実施形態或いは実施例に合わせて説明された具体的な特徴、構成、材料或いは特性が、本発明の少なくとも1つの実施形態或いは実施例に含まれることである。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態或いは実施例を示すものではない。また、説明された具体的な特徴、構成、材料或いは特性は、いずれか1つ或いは複数の実施形態又は実施例において適切に結合することができる。なお、相互に矛盾しない限り、当業者は、本明細書において説明された異なる実施形態又は実施例、及び異なる実施形態又は実施例の特徴を結合し、組み合わせることができる。
なお、「第1」、「第2」の用語は、単に目的を説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。よって、「第1」、「第2」が限定されている特徴は少なくとも1つの特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも2つ、例えば、2つ、3つなどを意味する。
フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、特定ロジック機能又はプロセスのステップを実現するための少なくとも1つの実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、ここで、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきものである。
フローチャートで示された又はここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装されて、命令実行システム、装置、又はデバイス(例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム)に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例(非限定的なリスト)として、少なくとも1つの配線を備える電気接続部(電子デバイス)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ(CDROM)を含む。また、コンピュータ読み取り可能な記憶媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理してプログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。
なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに記憶された且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアによって実現することができる。例えば、ハードウェアで実現される場合に、他の実施形態と同様に、本分野において周知である、データ信号に対してロジック機能を実現するためのロジックゲート回路を備える離散ロジック回路、適切な組み合わせロジックゲート回路を備える特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などの当分野の周知技術のうちいずれか1つ又はこれらの組み合わせによって実現することができる。
普通の当業者であれば、上記の実施形態に係る方法に含まれる全部又は一部のステップは、プログラムによってハードウェアを命令することで実行することができると理解することができる。プログラムは、コンピュータ読み取り可能な記憶媒体に格納することができ、プログラムが実行される場合に、本実施形態に係る方法におけるステップの1つ又はそれらの組み合わせが実行される。
また、本発明の各実施形態における各機能ユニットは、1つの処理モジュールに集積されてもよいし、それぞれが個別の物理的存在であってもよいし、2つ以上のユニットが1つのモジュールに集積されてもよい。集積モジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。集積モジュールがソフト機能モジュールの形態で実現されるとともに、独立した製品として販売又は使用される場合に、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。
上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又はCDなどであってもよい。なお、以上、本発明の実施形態を示して説明したが、上記実施形態は例示するものであって、本発明を制限するためのものであると理解してはいけない。普通の当業者であれば、本発明の範囲内で上記実施形態に対して変更、修正、取り替え、変形を行うことができる。

Claims (14)

  1. 被放送対象を取得するステップと、
    詩詞、天気、時間、計算を含む、前記被放送対象の目標対象タイプを認識するステップと、
    前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得するステップであって、前記放送タグ集合が、休止タグ、アクセントタグ、ボリュームタグ、音調タグ、音声速度タグ、音源タグ、オーディオ導入タグ、同形異音語識別子タグ、数字読み方識別子タグを含むステップと、
    前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送するステップとを含む音声放送方法。
  2. 前記目標タイプに基づいて、前記被放送対象とマッチングする前記放送タグ集合を取得するステップは、
    前記目標対象タイプに基づいて、対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする、前記放送タグ集合である第1放送タグ集合を取得するステップを含む請求項1に記載の音声放送方法。
  3. 前記目標対象タイプに基づいて、前記対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする前記第1放送タグ集合を取得するステップの後に、
    ユーザの放送ニーズを取得するステップと、
    前記放送ニーズに基づいて、前記被放送対象とマッチングする第2放送タグ集合を形成するステップと、
    前記第1放送タグ集合及び前記第2放送タグ集合を利用して、前記放送タグ集合を形成するステップとをさらに含む請求項2に記載の音声放送方法。
  4. 前記第1放送タグ集合及び前記第2放送タグ集合を利用して、前記放送タグ集合を形成するステップは、
    前記第1放送タグ集合から一部の放送タグを選定して前記第1目標放送タグ集合を形成するステップと、
    前記第2放送タグ集合から一部の放送タグを選択して前記第2目標放送タグ集合を形成するステップと、
    前記第1目標放送タグ集合及び/又は前記第2目標放送タグ集合を利用して、前記放送タグ集合を形成するステップとを含む請求項3に記載の音声放送方法。
  5. 前記被放送対象を取得するステップの前に、
    前記対象タイプのそれぞれに対して、異なる前記対象タイプにおける前記放送ルールを取得するステップと、
    前記放送ルールに基づいて、前記対象タイプに対応する前記放送タグ集合を形成するステップと、
    前記対象タイプと前記放送タグ集合との前記マッピング関係を構築するステップとをさらに含む請求項1から請求項4のいずれかに記載の音声放送方法。
  6. 前記被放送対象の前記目標対象タイプを認識するステップは、
    前記被放送対象のキー情報に基づいて、前記被放送対象の前記目標対象タイプを認識するステップを含む請求項1から請求項5のいずれかに記載の音声放送方法。
  7. 被放送対象を取得する第1取得モジュールと、
    詩詞、天気、時間、計算を含む、前記被放送対象の目標対象タイプを認識する認識モジュールと、
    前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する第2取得モジュールであって、前記放送タグ集合が、休止タグ、アクセントタグ、ボリュームタグ、音調タグ、音声速度タグ、音源タグ、オーディオ導入タグ、同形異音語識別子タグ、数字読み方識別子タグを含む第2取得モジュールと、
    前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送する放送モジュールとを備える音声放送装置。
  8. 前記第2取得モジュールは、
    前記目標対象タイプに基づいて、対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする、前記放送タグ集合である第1放送タグ集合を取得するクエリ取得ユニットを備える請求項7に記載の音声放送装置。
  9. 前記第2取得モジュールは、
    前記目標対象タイプに基づいて、前記対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする前記第1放送タグ集合を取得した後、ユーザの放送ニーズを取得するニーズ取得ユニットと、
    前記放送ニーズに基づいて、前記被放送対象とマッチングする第2放送タグ集合を形成する第1形成ユニットと、
    前記第1放送タグ集合及び前記第2放送タグ集合を利用して、前記放送タグ集合を形成する第2形成ユニットとをさらに備える請求項8に記載の音声放送装置。
  10. 前記第2形成ユニットは、具体的には、前記第1放送タグ集合から一部の放送タグを選定して前記第1目標放送タグ集合を形成し、前記第2放送タグ集合から一部の放送タグを選択して前記第2目標放送タグ集合を形成し、前記第1目標放送タグ集合及び/又は前記第2目標放送タグ集合を利用して、前記放送タグ集合を形成する請求項9に記載の音声放送装置。
  11. 前記対象タイプのそれぞれに対して、異なる前記対象タイプにおける前記放送ルールを取得し、前記放送ルールに基づいて、前記対象タイプに対応する前記放送タグ集合を形成し、前記対象タイプと前記放送タグ集合との前記マッピング関係を構築する構築モジュールをさらに備える請求項7から請求項10のいずれかに記載の音声放送装置。
  12. 前記認識モジュールは、具体的には、前記被放送対象のキー情報に基づいて、前記被放送対象の前記目標対象タイプを認識する請求項7から請求項11のいずれかに記載の音声放送装置。
  13. メモリと、
    プロセッサとを備え、
    該プロセッサは、前記メモリに記憶されている実行可能プログラムコードを読み出して、前記実行可能プログラムコードに対応するプログラムを実行して、請求項1から請求項6のいずれかに記載の音声放送方法を実現するスマート機器。
  14. コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1から請求項6のいずれかに記載の音声放送方法が実現されるコンピュータ読み取り可能な記憶媒体。
JP2019503523A 2017-07-05 2018-07-02 音声放送方法及び装置 Active JP6928642B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710541569.2 2017-07-05
CN201710541569.2A CN107437413B (zh) 2017-07-05 2017-07-05 语音播报方法及装置
PCT/CN2018/094116 WO2019007308A1 (zh) 2017-07-05 2018-07-02 语音播报方法及装置

Publications (2)

Publication Number Publication Date
JP2019533212A JP2019533212A (ja) 2019-11-14
JP6928642B2 true JP6928642B2 (ja) 2021-09-01

Family

ID=60459727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019503523A Active JP6928642B2 (ja) 2017-07-05 2018-07-02 音声放送方法及び装置

Country Status (6)

Country Link
US (1) US20200184948A1 (ja)
EP (1) EP3651152A4 (ja)
JP (1) JP6928642B2 (ja)
KR (1) KR102305992B1 (ja)
CN (1) CN107437413B (ja)
WO (1) WO2019007308A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437413B (zh) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 语音播报方法及装置
CN108053820A (zh) * 2017-12-13 2018-05-18 广东美的制冷设备有限公司 空气调节器的语音播报方法及装置
CN108600911B (zh) 2018-03-30 2021-05-18 联想(北京)有限公司 一种输出方法及电子设备
CN109582271B (zh) * 2018-10-26 2020-04-03 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备
CN109523987A (zh) * 2018-11-30 2019-03-26 广东美的制冷设备有限公司 事件语音播报方法、装置及家电设备
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110189742B (zh) * 2019-05-30 2021-10-08 芋头科技(杭州)有限公司 确定情感音频、情感展示、文字转语音的方法和相关装置
CN110456687A (zh) * 2019-07-19 2019-11-15 安徽亿联网络科技有限公司 一种多模式智能场景控制系统
US11380300B2 (en) 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text
CN112698807B (zh) * 2020-12-29 2023-03-31 上海掌门科技有限公司 语音播报方法、设备及计算机可读介质
CN113611282B (zh) * 2021-08-09 2024-05-14 苏州市广播电视总台 广播节目智能播报系统及方法
CN115985022A (zh) * 2022-12-14 2023-04-18 江苏丰东热技术有限公司 设备情况实时语音播报方法、装置、电子设备及存储介质
CN118314901B (zh) * 2024-06-05 2024-08-20 深圳市声扬科技有限公司 语音播放方法、装置、电子设备以及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100724868B1 (ko) * 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US7822606B2 (en) * 2006-07-14 2010-10-26 Qualcomm Incorporated Method and apparatus for generating audio information from received synthesis information
KR101160193B1 (ko) * 2010-10-28 2012-06-26 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US9767789B2 (en) * 2012-08-29 2017-09-19 Nuance Communications, Inc. Using emoticons for contextual text-to-speech expressivity
WO2015162737A1 (ja) * 2014-04-23 2015-10-29 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
US10192541B2 (en) * 2014-06-05 2019-01-29 Nuance Communications, Inc. Systems and methods for generating speech of multiple styles from text
JP6596891B2 (ja) * 2015-04-08 2019-10-30 ソニー株式会社 送信装置、送信方法、受信装置、及び、受信方法
CN105139848B (zh) * 2015-07-23 2019-01-04 小米科技有限责任公司 数据转换方法和装置
CN105931631A (zh) * 2016-04-15 2016-09-07 北京地平线机器人技术研发有限公司 语音合成系统和方法
CN106557298A (zh) * 2016-11-08 2017-04-05 北京光年无限科技有限公司 面向智能机器人的背景配音输出方法及装置
CN106652995A (zh) * 2016-12-31 2017-05-10 深圳市优必选科技有限公司 文本语音播报方法及系统
CN107437413B (zh) * 2017-07-05 2020-09-25 百度在线网络技术(北京)有限公司 语音播报方法及装置

Also Published As

Publication number Publication date
EP3651152A1 (en) 2020-05-13
CN107437413B (zh) 2020-09-25
EP3651152A4 (en) 2021-04-21
CN107437413A (zh) 2017-12-05
KR20190021409A (ko) 2019-03-05
KR102305992B1 (ko) 2021-09-28
JP2019533212A (ja) 2019-11-14
WO2019007308A1 (zh) 2019-01-10
US20200184948A1 (en) 2020-06-11

Similar Documents

Publication Publication Date Title
JP6928642B2 (ja) 音声放送方法及び装置
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
JP6357458B2 (ja) 音声合成における同綴異音異義語の曖昧さの解消
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN101030368B (zh) 在保持情感的同时跨通道进行通信的方法和系统
KR102628036B1 (ko) 음성 신호를 기초로 한 텍스트 편집 장치 및 텍스트 편집 방법
WO2020098115A1 (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
CN110197655B (zh) 用于合成语音的方法和装置
CN109410918B (zh) 用于获取信息的方法及装置
CN112908292B (zh) 文本的语音合成方法、装置、电子设备及存储介质
CN108804667B (zh) 用于呈现信息的方法和装置
CN107908743B (zh) 人工智能应用构建方法和装置
WO2014154097A1 (en) Automatic page content reading-aloud method and device thereof
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN110413834B (zh) 语音评论修饰方法、系统、介质和电子设备
WO2023287360A2 (zh) 多媒体处理方法、装置、电子设备及存储介质
US11056103B2 (en) Real-time utterance verification system and method thereof
CN110379406A (zh) 语音评论转换方法、系统、介质和电子设备
CN111105781B (zh) 语音处理方法、装置、电子设备以及介质
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
CN113221514A (zh) 文本处理方法、装置、电子设备和存储介质
CN113761865A (zh) 声文重对齐及信息呈现方法、装置、电子设备和存储介质
KR20140088327A (ko) 동적인 대화를 이용한 어학 학습 방법, 이를 위한 시스템 및 장치
KR20220034488A (ko) 전자 장치 및 이의 제어 방법
CN112951274A (zh) 语音相似度确定方法及设备、程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200416

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200623

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20201022

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210216

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210406

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210629

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210803

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210806

R150 Certificate of patent or registration of utility model

Ref document number: 6928642

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250