JP6928642B2

JP6928642B2 - 音声放送方法及び装置

Info

Publication number: JP6928642B2
Application number: JP2019503523A
Authority: JP
Inventors: リンジンチュ，; ヨンギョカン，; ヤンカイチュ，; ベンチュ，; ハイガンユアン，; ランチュ，
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2017-07-05
Filing date: 2018-07-02
Publication date: 2021-09-01
Anticipated expiration: 2038-07-02
Also published as: EP3651152A1; CN107437413B; EP3651152A4; CN107437413A; KR20190021409A; KR102305992B1; JP2019533212A; WO2019007308A1; US20200184948A1

Description

優先権情報

本発明は、バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッドが２０１７年０７月０５日付に提出した、発明の名称が「音声放送方法及び装置」で、中国特許出願番号が「２０１７１０５４１５６９．２」である特許出願の優先権を主張するものである。

本発明は、音声処理技術の分野に関し、特に音声放送方法及び装置に関するものである。

音声インタラクション型製品の成長に伴って、音声放送効果が、ますますユーザの注目を集めている。現在、リアルな人間による放送の放送効果は、ユーザの期待を満たすことができるとともに、感情を伝える役割を果たすことができるが、リアルな人間による放送の人件費が比較的高い。

人件費を低減するために、現在大抵はテキストトゥスピーチ（ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳと略される）の放送方式で放送する必要のあるコンテンツや情報を放送する。

本発明は、関連技術における少なくとも１つの技術的課題をある程度で解決することを目的とする。

そのため、本発明の１つ目の目的は、放送時に被放送コンテンツに含まれる感情を視聴者に伝えて、視聴者がコンテンツに含まれた感情を聴覚上で感じ取れることを実現し、また、従来のＴＴＳ放送方式による放送効果が、感情伝達の作用を奏することができず、聴取者が聴覚上で放送する必要のあるコンテンツ又は情報に含まれた感情を感じ取れないという課題を解決する音声放送方法を提供することである。

本発明の２つ目の目的は、音声放送装置を提供することである。

本発明の３つ目の目的は、スマート機器を提供することである。

本発明の４つ目の目的は、コンピュータプログラム製品を提供することである。

本発明の５つ目の目的は、コンピュータ読み取り可能な記憶媒体を提供することである。

上記目的を達成するために、本発明の第１態様の実施形態は、被放送対象を取得するステップと、前記被放送対象の目標対象タイプを認識するステップと、前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得するステップと、前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送するステップとを含む音声放送方法を提供する。

本発明の実施形態に係る音声放送方法は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上でコンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の１つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。

上記目的を達成するために、本発明の第２態様の実施形態は、被放送対象を取得する第１取得モジュールと、前記被放送対象の目標対象タイプを認識する認識モジュールと、前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する第２取得モジュールと、前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送する放送モジュールとを備える音声放送装置を提供する。

本発明の実施形態に係る音声放送装置は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上で当該コンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の１つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。

上記目的を達成するために、本発明の第３態様の実施形態において提供するスマート機器は、メモリと、プロセッサとを備え、該プロセッサは、前記メモリに記憶されている実行可能プログラムコードを読み出して、前記実行可能プログラムコードに対応するプログラムを実行して本発明の第１態様の実施形態に係る音声放送方法を実現する。

上記目的を達成するために、本発明の第４態様の実施形態において提供するコンピュータプログラム製品は、命令がプロセッサによって実行される場合、第１態様の実施形態に係る音声放送方法が実行される。

上記目的を達成するために、本発明の第５態様の実施形態において提供するコンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体は、前記コンピュータプログラムがプロセッサによって実行される場合、第１態様の実施形態に係る音声放送方法が実現される。

本発明の付加的な特徴及び利点は、一部が以下の説明において示され、一部が以下の説明により明らかになる、又は本発明の実践により理解される。

本発明の実施形態における技術案をより明確に説明するために、以下、実施形態において使用する必要のある図面について簡単に説明する。明らかに、以下の説明における図面は、本開示の一部の実施例であり、当業者であれば、創造的尽力を払うことはなく、これらの図面に基づいて他の図面をさらに取得することができる。

本発明の一実施形態において提供される音声放送方法の概略フローチャートである。本発明の他の実施形態において提供される音声放送方法の概略フローチャートである。本発明の他の実施形態において提供される音声放送方法の概略フローチャートである。本発明の一実施形態において提供される音声放送装置の概略構成図である。本発明の他の実施形態において提供される音声放送装置の概略構成図である。本発明の一実施形態において提供されるスマート機器の概略構成図である。

以下、本発明の実施形態を詳細に説明する。本実施形態における一例が図面に示され、同一又は類似する符号は、常に同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施形態は例示するものであり、本発明を解釈するために用いられることを目的とし、本発明を限定するものと理解されるものではない。

以下、図面を参照して、本発明の一実施形態に係る音声放送方法及び装置を説明する。

図１は、本発明の一実施形態において提供される音声放送方法の概略フローチャートである。

図１に示されるように、音声放送方法は、以下のステップＳ１０１と、ステップＳ１０２と、ステップＳ１０３とを含む。

ステップＳ１０１において、被放送対象を取得する。

本発明の一実施形態において、被放送対象は、放送する必要のあるコンテンツ又は情報である。

また、例えば、バイドォウ（百度）アプリのような電子機器における関連アプリケーションプログラムによって被放送対象を取得して放送してもよい。ユーザが電子機器にインストールされた関連アプリケーションプログラムを作動させた後、ユーザは、放送する必要のあるコンテンツ又は情報を音声／テキストで入力することができる。

ここで、電子機器は、例えば、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ，ＰＣ）、クラウド機器、モバイル機器であり、モバイル機器は、例えば、スマートフォンやタブレットなどである。

例えば、電子機器にインストールされた関連アプリケーションプログラムがバイドォウアプリであるとすると、ユーザが被放送対象に含まれた感情を聴覚上で感じたい場合、バイドォウアプリをクリックしてバイドォウアプリインターフェースにアクセスし、インタフェースにおける「押さえながら話す」ボタンを長押しして、「バイドォウＡＩ音声アシスタント（Ｄｕｅｒ）」を音声で入力した後、バイドォウＡＩ音声アシスタントプラグインにアクセスすることができ、さらに、ユーザは、放送する必要のあるコンテンツ又は情報を音声／テキスト入力の方式で決定することができ、その後、度秘プラグインは、放送する必要のあるコンテンツ又は情報を取得し、即ち被放送対象を取得することができる。

ステップＳ１０２において、被放送対象の目標対象タイプを認識する。

異なる放送対象が異なる対象タイプを有し、異なる対象タイプについて、その放送ルールも異なるため、目標対象タイプに基づいて、マッチングする放送ルールを選択して被放送対象を放送するために、被放送対象を放送する前に、被放送対象の目標対象タイプを認識する必要がある。

また、被放送対象のキー情報に基づいて、被放送対象の目標対象タイプを認識することができ、例えば、対象タイプは、詩詞、天気、時間、計算などであってもよい。

被放送対象のキー情報は、例えば、被放送対象のソース（アプリケーションプログラム）であってもよいし、被放送対象のタイトルであってもよいし、被放送対象の識別コードであってもよいが、これについて限定しない。

ステップＳ１０３において、目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する。

異なる対象タイプが異なる放送ルールを有するため、放送ルールに対して、対象タイプに対応する放送タグ集合を形成することができ、その後、対象タイプと放送タグ集合とのマッピング関係をあらかじめ構築し、被放送対象の目標対象タイプを決定する際に、対象タイプと放送タグ集合とのマッピング関係をクエリして、その中から、被放送対象とマッチングする放送タグ集合を取得することができる。

ここで、放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。

休止タグは、単語レベル、フレーズレベル、短句レベル、センテンスレベル、時間ごとの休止のタグを構築して実現する。

アクセントタグは、大きさが異なるアクセントタグを構築して実現する。

ボリュームタグ、音調タグ、音声速度タグ、及び太さタグは、対応する放送をパーセンテージで調節するタグを構築して実現する。

オーディオ導入タグは、テキストにオーディオファイルを挿入するタグを構築する。

同形異音語識別子タグは、同形異音語の正確な読み方をつけることができるタグを構築する。

数字読み方識別子タグは、整数、数字列、得点、分数、電話番号、郵便番号などを含む数字の正確な読み方を付けることができるタグを構築する。

音源タグは、発音者を選択することができるタグを構築する。

一例を挙げると、目標対象タイプが詩詞である場合、詩詞は、中華民族の伝統文化として、朗読中に独自の特色のある音韻、音律を有するため、詩詞の朗読ルールに基づいて、詩詞とマッチングする放送タグ集合を形成することができる。五言詩の一句「床前明月光」を例として、五言詩の朗読ルールに基づいて、「床前」の後に単語レベルの休止を入れる必要があるとマークアップすることができ、１つの休止タグを設定し、休止タグは、「床前」の２文字の後で休止すること、すなわち、２つ目の文字の後で休止することを示すことができる。「明」をアクセントで読む必要があるため、１つのアクセントタグを設定し、休止タグは、「明」の文字をアクセントで読むこと、すなわち、３つ目の文字をアクセントで読むことを示すことができる。「光」を少し延長させる必要があるため、１つの音声速度タグを設定し、音声速度タグは、「光」の文字を少し延長させること、すなわち、４つ目の文字を少し延長させ、「光」の文字の放送時間を延長させることを示すことができる。また、放送タグ集合におけるタグを追加することにより、「床前明月光」をマークアップして、これを一例として、五言詩一首を全部マークアップすることができ、最終的に、完全なフォームを出力して、五言詩とマッチングする、単語レベルの休止タグ、アクセントタグ、及び音声速度タグなどを含む放送タグ集合を合成する。

ステップＳ１０４において、放送タグ集合によって特徴付けられた放送ルールに基づいて被放送対象を放送する。

五言詩を一例として、具体的に適用するとき、被放送対象の対象タイプが五言詩であると決定された場合、五言詩とマッチングする放送タグ集合を追加して、放送タグ集合によって特徴付けられた放送ルールに基づいて、五言詩を放送すれば、五言詩の感情こもった朗読効果を実現することができる。

本実施形態に係る音声放送方法は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上でコンテンツに含まれた感情を感じ取れることを実現することができる。本実施例において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語（ＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＭａｒｋｕｐＬａｎｇｕａｇｅ、ＳＳＭＬと略される）仕様の１つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。

さらに、本発明の一実施形態においては、ユーザの放送ニーズに応じて、カスタマイズ放送タグを形成することもできる。具体的には、本発明の他の実施形態において提供される音声放送方法の概略フローチャートである図２を参照する。

図２を参照して、音声放送方法は、以下のステップＳ２０１〜ステップＳ２１０を含むことができる。

ステップＳ２０１において、対象タイプのそれぞれに対して、異なる対象タイプの放送ルールを取得する。

異なる対象タイプが異なる放送ルールを有するため、あらかじめ対象タイプのそれぞれに対して、異なる対象タイプの放送ルールを取得することができる。例えば、対象タイプが詩詞であることを例として、放送ルールは、詩詞の朗読ルールである。

ステップＳ２０２において、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成する。

例えば、対象タイプが詩詞である場合、詩詞の朗読ルールに基づいて、詩詞とマッチングする放送タグ集合を形成することができる。五言詩の一句「床前明月光」を一例として、五言詩の朗読ルールに基づいて、「床前」の後に単語レベルの休止を入れる必要があるとマークアップすることができ、１つの休止タグを設定し、休止タグは、「床前」の２文字の後で休止することすなわち、２つ目の文字の後で休止することを示すことができる。「明」をアクセントで読む必要があるため、１つのアクセントタグを設定し、休止タグは、「明」の文字をアクセントで読むこと、すなわち、３つ目の文字をアクセントで読むことを示すことができる。「光」を少し延長させる必要があるため、１つの音声速度タグを設定し、音声速度タグは、「光」の文字を少し延長させること、すなわち、４つ目の文字を少し延長させ、「光」の文字の放送時間を延長させることを示すことができ。また、放送タグ集合におけるタグを追加することにより、「床前明月光」をマークアップして、これを例として、五言詩一首を全部マークアップすることができ、最終的に、完全なフォームを出力して、五言詩とマッチングする、単語レベルの休止タグ、アクセントタグ、及び音声速度タグなどを含む放送タグ集合を合成する。

ステップＳ２０３において、対象タイプと放送タグ集合とのマッピング関係を構築する。

また、対象タイプと放送タグ集合とのマッピング関係を構築してもよい。被放送対象の目標対象タイプが決定される場合、マッピング関係をクエリして、その中から、被放送対象とマッチングする放送タグ集合を取得することができ、実現しやすく、かつ操作が簡単である。

ステップＳ２０４において、被放送対象を取得する。

ステップＳ２０５において、被放送対象の目標対象タイプを認識する。

ステップＳ２０６において、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリして、被放送対象とマッチングする第１放送タグ集合を取得する。

第１放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。

ステップＳ２０４〜Ｓ２０６の実行プロセスは、上記実施形態を参照することができ、ここでは、説明を省略する。

ステップＳ２０７において、ユーザの放送ニーズを取得する。

例えば、目標対象タイプが天気である場合、天気を放送するとき、特に雨天を放送するとき、ユーザの放送ニーズは、例えば、天気を放送するとともに、雨の音が流れることができ、また、外出するときに傘を持つようユーザに注意を呼びかけることができるということであってもよいし、雹を放送するとき、ユーザの放送ニーズは、例えば、天気を放送するとともに、雹が降る音を流れることができ、できるだけ外出しないようユーザに注意を呼びかけることができてもよい。

ステップＳ２０８において、放送ニーズに基づいて、被放送対象とマッチングする第２放送タグ集合を形成する。

本発明の実施形態において、第２タグ集合は、背景音タグ、英語読み方タグ、詩詞タグ、音声絵文字タグなどを含む。

ここで、背景音タグは、オーディオ導入タグを実現した上で、背景音タグを構築して、放送コンテンツとオーディオ効果とを組み合わせる。

英語読み方タグは、同形異音語識別子タグの実現方式と同様に、アルファベットで読むか、単語で読むかを区別するタグを構築することができる。

詩詞タグは、詩詞タイプや詩詞の名前に基づいて、詩詞を分類し、各タイプに対して、音韻などの朗読ルールをそれぞれマークアップして、第１放送タグ集合におけるタグを組み合わせることにより、詩詞カテゴリーハイレベルタグを生成する。

音声絵文字タグは、異なる感情及び場面で使用可能なオーディオファイルライブラリを構築し、異なる各場面に対応するリソースを導入して音声放送絵文字を生成する。例えば、天気をクエリするとき、雨であると、対応する雨の音が放送される。

例えば、目標対象タイプが天気である場合、被放送対象とマッチングする第２放送タグ集合は、背景音タグであってもよい。具体的に適用する場合、背景音タグを追加することにより、天気を放送するとき、雨の音又は雹の音が流れることを実現することができる。

また、例えば、被放送対象が英語である場合、被放送対象とマッチングする第２放送タグ集合は、英語読み方タグであってもよい。具体的に適用する場合、英語読み方タグを追加することにより、英語の感情のこもった朗読効果を実現することができる。

さらに、例えば、目標対象タイプが詩詞である場合、被放送対象とマッチングする第２放送タグ集合は、詩詞タグであってもよい。具体的に適用する場合、詩詞タグを追加することにより、詩詞の感情のこもった朗読効果を実現することができる。

このステップにおいて、ユーザの放送ニーズに基づいて、被放送対象とマッチングする第２放送タグ集合を形成することにより、音声放送のパーソナライズカスタマイズを実現し、音声放送方法の適用性を効果的に向上させ、ユーザの体験を向上させることができる。

ステップＳ２０９において、第１放送タグ集合及び第２放送タグ集合を利用して、放送タグ集合を形成する。

詩詞の放送を例として、朗読ルールに基づいて、第１放送タグ集合を形成し、放送ニーズとマッチングする第２放送タグ集合を詩詞タグとすることができる。その後、第１放送タグ集合及び第２放送タグ集合を利用して、放送タグ集合を形成することができる。

天気放送を一例として、被放送コンテンツに基づいて第１放送タグ集合を取得し、放送ニーズとマッチングする第２放送タグ集合を背景音タグとすることができる。その後、第１放送タグ集合及び第２放送タグ集合を利用して、放送タグ集合を形成することができる。具体的には、背景音タグと固定放送コンテンツとを用いて単一の放送効果を実現し、異なる天気における異なる放送効果を順次にマークアップして、最終的に天気の放送タグ集合を生成することができる。

ステップＳ２１０において、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。

天気の放送を例として、天気を放送すると場合、天気の放送タグ集合及び天気のキーワードに基づいて、異なるユーザのニーズの効果を放送することができる。

ステップＳ２１０の実行プロセスは、上記実施形態を参照することができ、ここでは、説明を省略する。

本実施形態に係る音声放送方法は、対象タイプのそれぞれに対して、異なる対象タイプにおける放送ルールを取得し、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成し、対象タイプと放送タグ集合とのマッピング関係を構築することにより、実現しやすく、かつ操作が簡単である。被放送対象を取得し、被放送対象の目標対象タイプを認識し、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする第１放送タグ集合を取得し、ユーザの放送ニーズを取得し、放送ニーズに基づいて、被放送対象とマッチングする第２放送タグ集合を形成し、第１放送タグ集合及び第２放送タグ集合を利用して、放送タグ集合を形成し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送することにより、音声放送のパーソナライズカスタマイズを実現し、音声放送方法の適用性を効果的に向上させ、ユーザの体験を向上させることができる。

上記実施形態を具体的に説明するために、図３を参照し、図２に示す実施形態に基づいて、ステップＳ２０９は、具体的には、以下のサブステップＳ３０１〜サブステップＳ３０３を含む。

ステップＳ３０１において、第１放送タグ集合から一部の放送タグを選定して第１目標放送タグ集合を形成する。

なお、第１放送タグ集合は、主に、休止、アクセント、ボリューム、音調、音声速度、音源、オーディオ導入、同形異音語識別子、数字読み方識別子などのタグを含む。被放送対象を放送するには、その中の一部のタグしか使わない可能性があるため、具体的に使用する際に、第１放送タグ集合から、今回の放送に係る一部の放送タグを選定して、第１目標放送タグ集合を形成することができ、対応性が高く、システムの処理効率が向上する。

ステップＳ３０２において、第２放送タグ集合から一部の放送タグを選択して第２目標放送タグ集合を形成する。

なお、ユーザの放送ニーズとマッチングする放送タグ集合は、第２放送タグ集合におけるいくつかの放送タグしか含まない可能性がある。例えば、天気を放送する場合、ユーザの放送ニーズとマッチングする放送タグ集合が背景音タグだけであるため、第２放送タグ集合から、一部の放送タグを選択して第２目標放送タグ集合を形成することができ、対応性が高く、システムの処理効率が向上する。

天気の放送を一例として、第２放送タグ集合から背景音タグを選択して第２目標放送タグ集合を形成することができる。

詩詞の放送を一例として、第２放送タグ集合から詩詞タグを選択して第２目標放送タグ集合を形成することができる。

ステップＳ３０３において、第１目標放送タグ集合及び／又は第２目標放送タグ集合を利用して、放送タグ集合を形成する。

本実施形態に係る音声放送方法は、第１放送タグ集合から一部の放送タグを選定して第１目標放送タグ集合を形成し、第２放送タグ集合から一部の放送タグを選択して第２目標放送タグ集合を形成し、第１目標放送タグ集合及び／又は第２目標放送タグ集合を利用して、放送タグ集合を形成することにより、音声放送のパーソナライズカスタマイズを実現することができ、適合性が高く、システムの処理効率が効果的に向上する。

上記実施形態を実現するために、本発明は、音声放送装置をさらに提供する。

図４は、本発明の一実施形態において提供される音声放送装置の概略構成図である。

図４に示されるように、音声放送装置４００は、第１取得モジュール４１０と、認識モジュール４２０と、第２取得モジュール４３０と、放送モジュール４４０とを備える。

第１取得モジュール４１０は、被放送対象を取得する。

認識モジュール４２０は、被放送対象の目標対象タイプを認識する。

さらに、認識モジュール４２０は、具体的には、被放送対象のキー情報に基づいて、被放送対象の目標対象タイプを認識する。

第２取得モジュール４３０は、目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する。

放送モジュール４４０は、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。

さらに、本発明の実施形態の実現可能な方式において、図４に基づいて、図５を参照して、音声放送装置４００は、対象タイプのそれぞれに対して、異なる対象タイプにおける放送ルールを取得し、放送ルールに基づいて、対象タイプに対応する放送タグ集合を形成し、対象タイプと放送タグ集合とのマッピング関係を構築する構築モジュール４５０をさらに備える。

本発明の実施形態の実現可能な方式において、第２取得モジュール４３０は、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする、放送タグ集合である第１放送タグ集合を取得するクエリ取得ユニット４３１と、目標対象タイプに基づいて、対象タイプと放送タグ集合とのマッピング関係をクエリし、被放送対象とマッチングする第１放送タグ集合を取得した後、ユーザの放送ニーズを取得するニーズ取得ユニット４３２と、放送ニーズに基づいて、被放送対象とマッチングする第２放送タグ集合を形成する第１形成ユニット４３３と、第１放送タグ集合及び第２放送タグ集合を利用して、放送タグ集合を形成する第２形成ユニット４３４とを備える。

さらに、第２形成ユニット４３４は、具体的には、第１放送タグ集合から一部の放送タグを選定して第１目標放送タグ集合を形成し、第２放送タグ集合から一部の放送タグを選択して第２目標放送タグ集合を形成し、第１目標放送タグ集合及び／又は第２目標放送タグ集合を利用して、放送タグ集合を形成する。

なお、前述した図１〜図３の実施形態で音声放送方法の実施形態に対する解釈説明は、本実施形態に係る音声放送装置４００にも適用し、ここでは、説明を省略する。

本実施形態に係る音声放送装置は、被放送対象の目標対象タイプに基づいて、被放送対象とマッチングする、被放送対象の放送ルールを特徴付けるための放送タグ集合を取得し、放送タグ集合によって特徴付けられた放送ルールに基づいて、被放送対象を放送する。本実施形態において、放送時に被放送コンテンツに含まれた感情を視聴者に伝えて、視聴者が聴覚上で当該コンテンツに含まれた感情を感じ取れることを実現することができる。本実施形態において、放送タグに基づいて対象を放送することは、音声合成マークアップ言語仕様の１つの実現手段であり、人々が各種の端末機器を介して音声を聴取することに有利である。

図６は、本発明の実施形態を実現するための例示的なスマート機器２０のブロック図を示している。図６に示されるスマート機器２０は、単なる１つの例であり、本発明の実施形態の機能及び使用範囲について一切限定しない。

図６に示されるように、スマート機器２０は、汎用コンピューティングデバイスの形態で示されている。スマート機器２０の構成要素は、少なくとも１つのプロセッサ又は処理ユニット２１と、システムメモリ２２と、異なるシステムの構成要素（システムメモリ２２と処理ユニット２１とを備える）を接続するバス２３とを備えるが、これらに限定されない。

バス２３は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ、又は多様なバス構造のいずれかのバス構造を使用するローカルバスを含む、いくつかのタイプのバス構造のうちの少なくとも１つを表す。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、以下ＩＳＡと略する）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ、以下ＭＣＡと略する）バス、拡張ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ、以下ＶＥＳＡと略する）ローカルバス、及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎ、以下ＰＣＩと略する）バスを含むが、これらに限定されない。

スマート機器２０は、一般的に、複数種類のコンピュータシステム読み取り可能な媒体を有する。これらの媒体は、揮発性媒体及び不揮発性媒体、リムーバブル媒体及びノンリムーバブル媒体を含む、スマート機器２０によってアクセスされ得る任意の使用可能な媒体であってもよい。

システムメモリ２２は、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、以下ＲＡＭと略する）３０及び／又はキャッシュメモリ３２のような揮発性メモリの形態のコンピュータシステム読み取り可能な媒体を含んでもよい。スマート機器は、他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでいてもよい。一例とするが、ストレージシステム３４は、ノンリムーバブル、不揮発性磁気媒体（図６に図示せず、一般的に「ハードディスクドライブ」と称される）に対して読み出し及び書き込みをするために用いることができる。図６に示されていないが、リムーバブル不揮発性磁気ディスク（例えば、「フロッピーディスク」）に対して読み出し及び書き込みをするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク（例えば、シーディーロム（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＣＤ−ＲＯＭと略する）、ディーブイディーロム（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＤＶＤ−ＲＯＭと略する）又は他の光学媒体）に対して読み出し及び書き込みをするための光ディスクドライブを提供することができる。これらの場合、各ドライブは、少なくとも１つのデータメディアインターフェイスを介してバス２３に接続することができる。システムメモリ２２は、本発明の各実施形態に記載の機能を実行するように構成される１セットの（例えば、少なくとも１つ）プログラムモジュールを有する少なくとも１つのプログラム製品を含んでもよい。

１セットの（少なくとも１つ）プログラムモジュール４２を有するプログラム／ユーティリティ４０は、例えば、システムメモリ２２に記憶されてもよく、このようなプログラムモジュール４２は、オペレーティングシステム、少なくとも１つのアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これらに限定されない。これらの一例のそれぞれ又はある組み合わせには、ネットワーキング環境の実装が含まれる可能性がある。プログラムモジュール４２は、一般的に、本発明に記載の実施形態における機能及び／又は方法を実行する。

スマート機器２０は、少なくとも１つの外部デバイス５０（例えば、キーボード、ポインティングデバイス、ディスプレイ６０など）と通信することができ、また、ユーザがスマート機器２０とインタラクションすることを可能にする少なくとも１つのデバイスと通信することができ、及び／又は、スマート機器２０が少なくとも１つの他のコンピューティングデバイスと通信することを可能にする任意のデバイス（例えば、ネットワークカード、モデムなど）と通信することもできる。そのような通信は、入力／出力（Ｉ／Ｏ）インタフェース２４を介して行うことができる。また、スマート機器２０は、ネットワークアダプタ２５を介して、１つ又は複数のネットワーク（例えば、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、以下ＬＡＮと略する）、ワイドエリアネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、以下ＷＡＮと略する）、及び／又はパブリックネットワーク、例えば、インターネット）と通信することができる。図に示されるように、ネットワークアダプタ２５は、バス２３を介してスマート機器２０の他のモジュールと通信する。なお、図示されていないが、マイクロコード、デバイスドライバ、冗長化処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライバ、及びデータバックアップストレージシステムなどを含むが、これらに限定されない、他のハードウェア及び／又はソフトウェアモジュールをスマート機器２０と組み合わせて使用することができる。

処理ユニット２１は、システムメモリ２２に記憶されているプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、図１〜図３に示される音声放送方法を実現する。

少なくとも１つのコンピュータ読み取り可能な媒体の任意の組み合わせを採用することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、或いはコンピュータ読み取り可能な記憶媒体であってもよい。コンピュータ読み取り可能な媒体は、例えば、電子、磁気、光、電磁気、赤外線、又は半導体のシステム、装置又はデバイス、或いは上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能な記憶媒体のより具体的な一例（非限定的なリスト）として、少なくとも１つの配線を備える電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＲＯＭと略する）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下ＥＰＲＯＭと略する）又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含む。この明細書において、コンピュータ読み取り可能な記憶媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されることが可能であるプログラムを含む又は記憶する任意の有形の媒体であってもよい。

コンピュータ読み取り可能な信号媒体は、ベースバンドにおける、又は搬送波の一部として伝播するデータ信号を含むことができ、その中にはコンピュータ読み取り可能なプログラムコードが搭載される。この伝播するデータ信号は様々な形式を採用することができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ読み取り可能な信号媒体は、さらに、コンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、コンピュータ読み取り可能な媒体は、命令実行システム、装置又はデバイスにより使用され、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは、無線、有線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって伝送することができる。

少なくとも１つのプログラミング言語又はそれらの組み合わせで本発明の動作を実行するためのコンピュータプログラムコードを作成することができ、プログラミング言語は、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのプロジェクト指向のプログラミング言語を含み、さらに、「Ｃ」言語又は同様のプログラミング言語といった従来の手続き型プログラミング言語をも含む。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバーで実行してもよい。リモートコンピュータに係る場合、リモートコンピュータは、ローカルネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、以下ＬＡＮと略する）又は広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、以下ＷＡＮと略する）を含む任意種類のインターネットを介して、ユーザーコンピュータに接続することができ、或いは、外部コンピュータ（例えば、インターネットサービスプロバイダを利用してインターネットを介して接続する）に接続することもできる。

上記実施形態を実現するために、本発明は、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品における命令がプロセッサによって実行される場合、上記実施形態に係る音声放送方法を実行する。

上記実施形態を実現するために、本発明は、コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体をさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、上記実施形態に係る音声放送方法を実現可能である。

本発明の説明において、「一実施形態」、「他の実施形態」、「一例」、「具体的な地例」、或いは「他の一例」などの用語を参考した説明とは、実施形態或いは実施例に合わせて説明された具体的な特徴、構成、材料或いは特性が、本発明の少なくとも１つの実施形態或いは実施例に含まれることである。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態或いは実施例を示すものではない。また、説明された具体的な特徴、構成、材料或いは特性は、いずれか１つ或いは複数の実施形態又は実施例において適切に結合することができる。なお、相互に矛盾しない限り、当業者は、本明細書において説明された異なる実施形態又は実施例、及び異なる実施形態又は実施例の特徴を結合し、組み合わせることができる。

なお、「第１」、「第２」の用語は、単に目的を説明するためのものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。よって、「第１」、「第２」が限定されている特徴は少なくとも１つの特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、少なくとも２つ、例えば、２つ、３つなどを意味する。

フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、特定ロジック機能又はプロセスのステップを実現するための少なくとも１つの実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、ここで、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきものである。

フローチャートで示された又はここで他の形態で説明されたロジック及び／又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装されて、命令実行システム、装置、又はデバイス（例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム）に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納する、通信する、伝播する、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例（非限定的なリスト）として、少なくとも１つの配線を備える電気接続部（電子デバイス）、ポータブルコンピュータディスクカートリッジ（磁気デバイス）、ランダムアクセスメモリ（ＲＡＭ）読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ（ＣＤＲＯＭ）を含む。また、コンピュータ読み取り可能な記憶媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよく、これは、例えば、紙や他の媒体を光学的スキャンし、次に編集し、解釈し、又は必要な場合に他の適切な形態で処理してプログラムを電子的に取得して、そしてコンピュータメモリに格納するからである。

なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに記憶された且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアによって実現することができる。例えば、ハードウェアで実現される場合に、他の実施形態と同様に、本分野において周知である、データ信号に対してロジック機能を実現するためのロジックゲート回路を備える離散ロジック回路、適切な組み合わせロジックゲート回路を備える特定用途向け集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの当分野の周知技術のうちいずれか１つ又はこれらの組み合わせによって実現することができる。

普通の当業者であれば、上記の実施形態に係る方法に含まれる全部又は一部のステップは、プログラムによってハードウェアを命令することで実行することができると理解することができる。プログラムは、コンピュータ読み取り可能な記憶媒体に格納することができ、プログラムが実行される場合に、本実施形態に係る方法におけるステップの１つ又はそれらの組み合わせが実行される。

また、本発明の各実施形態における各機能ユニットは、１つの処理モジュールに集積されてもよいし、それぞれが個別の物理的存在であってもよいし、２つ以上のユニットが１つのモジュールに集積されてもよい。集積モジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。集積モジュールがソフト機能モジュールの形態で実現されるとともに、独立した製品として販売又は使用される場合に、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。

上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又はＣＤなどであってもよい。なお、以上、本発明の実施形態を示して説明したが、上記実施形態は例示するものであって、本発明を制限するためのものであると理解してはいけない。普通の当業者であれば、本発明の範囲内で上記実施形態に対して変更、修正、取り替え、変形を行うことができる。

Claims

被放送対象を取得するステップと、
詩詞、天気、時間、計算を含む、前記被放送対象の目標対象タイプを認識するステップと、
前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得するステップであって、前記放送タグ集合が、休止タグ、アクセントタグ、ボリュームタグ、音調タグ、音声速度タグ、音源タグ、オーディオ導入タグ、同形異音語識別子タグ、数字読み方識別子タグを含むステップと、
前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送するステップとを含む音声放送方法。
前記目標タイプに基づいて、前記被放送対象とマッチングする前記放送タグ集合を取得するステップは、
前記目標対象タイプに基づいて、対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする、前記放送タグ集合である第１放送タグ集合を取得するステップを含む請求項１に記載の音声放送方法。
前記目標対象タイプに基づいて、前記対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする前記第１放送タグ集合を取得するステップの後に、
ユーザの放送ニーズを取得するステップと、
前記放送ニーズに基づいて、前記被放送対象とマッチングする第２放送タグ集合を形成するステップと、
前記第１放送タグ集合及び前記第２放送タグ集合を利用して、前記放送タグ集合を形成するステップとをさらに含む請求項２に記載の音声放送方法。
前記第１放送タグ集合及び前記第２放送タグ集合を利用して、前記放送タグ集合を形成するステップは、
前記第１放送タグ集合から一部の放送タグを選定して前記第１目標放送タグ集合を形成するステップと、
前記第２放送タグ集合から一部の放送タグを選択して前記第２目標放送タグ集合を形成するステップと、
前記第１目標放送タグ集合及び／又は前記第２目標放送タグ集合を利用して、前記放送タグ集合を形成するステップとを含む請求項３に記載の音声放送方法。
前記被放送対象を取得するステップの前に、
前記対象タイプのそれぞれに対して、異なる前記対象タイプにおける前記放送ルールを取得するステップと、
前記放送ルールに基づいて、前記対象タイプに対応する前記放送タグ集合を形成するステップと、
前記対象タイプと前記放送タグ集合との前記マッピング関係を構築するステップとをさらに含む請求項１から請求項４のいずれかに記載の音声放送方法。
前記被放送対象の前記目標対象タイプを認識するステップは、
前記被放送対象のキー情報に基づいて、前記被放送対象の前記目標対象タイプを認識するステップを含む請求項１から請求項５のいずれかに記載の音声放送方法。
被放送対象を取得する第１取得モジュールと、
詩詞、天気、時間、計算を含む、前記被放送対象の目標対象タイプを認識する認識モジュールと、
前記目標対象タイプに基づいて、前記被放送対象とマッチングする、前記被放送対象の放送ルールを特徴付けるための放送タグ集合を取得する第２取得モジュールであって、前記放送タグ集合が、休止タグ、アクセントタグ、ボリュームタグ、音調タグ、音声速度タグ、音源タグ、オーディオ導入タグ、同形異音語識別子タグ、数字読み方識別子タグを含む第２取得モジュールと、
前記放送タグ集合によって特徴付けられた前記放送ルールに基づいて、前記被放送対象を放送する放送モジュールとを備える音声放送装置。
前記第２取得モジュールは、
前記目標対象タイプに基づいて、対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする、前記放送タグ集合である第１放送タグ集合を取得するクエリ取得ユニットを備える請求項７に記載の音声放送装置。
前記第２取得モジュールは、
前記目標対象タイプに基づいて、前記対象タイプと前記放送タグ集合とのマッピング関係をクエリして、前記被放送対象とマッチングする前記第１放送タグ集合を取得した後、ユーザの放送ニーズを取得するニーズ取得ユニットと、
前記放送ニーズに基づいて、前記被放送対象とマッチングする第２放送タグ集合を形成する第１形成ユニットと、
前記第１放送タグ集合及び前記第２放送タグ集合を利用して、前記放送タグ集合を形成する第２形成ユニットとをさらに備える請求項８に記載の音声放送装置。
前記第２形成ユニットは、具体的には、前記第１放送タグ集合から一部の放送タグを選定して前記第１目標放送タグ集合を形成し、前記第２放送タグ集合から一部の放送タグを選択して前記第２目標放送タグ集合を形成し、前記第１目標放送タグ集合及び／又は前記第２目標放送タグ集合を利用して、前記放送タグ集合を形成する請求項９に記載の音声放送装置。
前記対象タイプのそれぞれに対して、異なる前記対象タイプにおける前記放送ルールを取得し、前記放送ルールに基づいて、前記対象タイプに対応する前記放送タグ集合を形成し、前記対象タイプと前記放送タグ集合との前記マッピング関係を構築する構築モジュールをさらに備える請求項７から請求項１０のいずれかに記載の音声放送装置。
前記認識モジュールは、具体的には、前記被放送対象のキー情報に基づいて、前記被放送対象の前記目標対象タイプを認識する請求項７から請求項１１のいずれかに記載の音声放送装置。
メモリと、
プロセッサとを備え、
該プロセッサは、前記メモリに記憶されている実行可能プログラムコードを読み出して、前記実行可能プログラムコードに対応するプログラムを実行して、請求項１から請求項６のいずれかに記載の音声放送方法を実現するスマート機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１から請求項６のいずれかに記載の音声放送方法が実現されるコンピュータ読み取り可能な記憶媒体。