JP2011170622A - Content providing system, content providing method, and content providing program - Google Patents
Content providing system, content providing method, and content providing program Download PDFInfo
- Publication number
- JP2011170622A JP2011170622A JP2010033821A JP2010033821A JP2011170622A JP 2011170622 A JP2011170622 A JP 2011170622A JP 2010033821 A JP2010033821 A JP 2010033821A JP 2010033821 A JP2010033821 A JP 2010033821A JP 2011170622 A JP2011170622 A JP 2011170622A
- Authority
- JP
- Japan
- Prior art keywords
- content
- user
- voice
- value
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラムに関する。 The present invention relates to a content providing system, a content providing method, and a content providing program.
特許文献1(特開2008−170820号公報)には、感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えるコンテンツ提供システムが記載されている。当該文献に記載された技術では、言語や話者に依存しない単純な特徴量として、音量や音高といった韻律成分を用い、特徴量の所定時間(たとえば、過去1秒間)の基本統計量をもって、話者の現在の話し方としている。そして、話し方の定常状態(たとえば、過去5秒間の基本統計量)からの逸脱量から、各感情の度合いを求めている。 Japanese Patent Application Laid-Open No. 2008-170820 discloses an emotion type content storage unit that stores an emotion type and content in association with each other, and a feature amount calculation unit that calculates a feature amount of a voice input from the voice input unit. An emotion type determining means for determining an emotion type based on the calculated audio feature quantity, a content reading means for reading the content stored in association with the determined emotion type, and the read content as a content A content providing system including a transmission unit that transmits to a reproduction unit is described. In the technique described in the document, as a simple feature quantity independent of a language or a speaker, a prosodic component such as a volume or a pitch is used, and a basic statistic for a predetermined time (for example, the past one second) of the feature quantity is obtained. The speaker is currently speaking. Then, the degree of each emotion is obtained from the deviation from the steady state of speaking (for example, the basic statistics for the past 5 seconds).
特許文献1に記載の技術では、ユーザの一時的な感情が判断されるだけである。しかし、たとえばユーザに効果的な広告等をコンテンツとして提示したい場合に、ユーザに一時的に発生した感情に関連するコンテンツよりも、ユーザ固有の性質に関連するコンテンツを提示した方が、ユーザの興味を引く可能性が高いと考えられる。ユーザに一時的に発生した感情に関連するコンテンツを提示する方法では、ユーザの感情が変わる度にコンテンツも変更され、コンテンツを繰り返し提示することによりユーザの興味を高めるということもできない。従来の技術では、ユーザ固有の話し方等の音声特徴に基づき、適切なコンテンツを提供することができなかった。 In the technique described in Patent Document 1, only a temporary emotion of the user is determined. However, for example, when it is desired to present an effective advertisement or the like as content to the user, it is better to present the content related to the user's unique property than the content related to the emotion generated temporarily to the user. Is likely to pull. In the method of presenting content related to emotions temporarily generated to the user, the content is changed each time the user's emotion changes, and the user's interest cannot be increased by repeatedly presenting the content. In the conventional technology, it is not possible to provide appropriate content based on voice characteristics such as a user-specific way of speaking.
本発明の目的は、上述した課題である、ユーザ固有の話し方等の音声特徴に基づき、適切なコンテンツを提供することができないという問題を解決するコンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラムを提供することにある。 An object of the present invention is to provide a content providing system, a content providing method, and a content providing program that solve the above-described problem that it is impossible to provide appropriate content based on voice characteristics such as a user-specific way of speaking. It is to provide.
本発明によれば、
音声特徴と、当該音声特徴を有するユーザに提示したいコンテンツとを対応付けて記憶するコンテンツ記憶手段と、
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出手段と、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出手段が検出した前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択手段と、
前記コンテンツ選択手段が選択したコンテンツを提示する提示手段と、
を含むコンテンツ提供システムが提供される。
According to the present invention,
Content storage means for storing the audio feature and the content to be presented to the user having the audio feature in association with each other;
A voice feature detecting means for detecting a voice feature unique to the user by comparing a value of the voice component of the user calculated based on the input voice data of the user with index data for judging a tendency with respect to a standard; ,
Content selection means for selecting content associated with the audio features detected by the audio feature detection means from among the contents stored in the content storage means;
Presenting means for presenting the content selected by the content selecting means;
Is provided.
本発明によれば、
音声特徴と、当該音声特徴を有するユーザに提示したいコンテンツとを対応付けて記憶するコンテンツ記憶手段を含むコンピュータシステムを用いたコンテンツ提供方法であって、
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出ステップと、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出ステップで検出された前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択ステップと、
前記コンテンツ選択ステップで選択されたコンテンツを提示する提示ステップと、
を含むコンテンツ提供方法が提供される。
According to the present invention,
A content providing method using a computer system including a content storage unit that stores an audio feature and content to be presented to a user having the audio feature in association with each other,
A voice feature detection step of detecting a voice feature unique to the user by comparing a value of the voice component of the user calculated based on the input voice data of the user with index data for determining a tendency with respect to a standard; ,
A content selection step of selecting content associated with the audio feature detected in the audio feature detection step from the content stored in the content storage means;
A presentation step of presenting the content selected in the content selection step;
A content providing method is provided.
本発明によれば、
コンピュータを、
音声特徴と、当該音声特徴を有するユーザに提示したいコンテンツとを対応付けて記憶するコンテンツ記憶手段、
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出手段、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出手段が検出した前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択手段、
前記コンテンツ選択手段が選択したコンテンツを提示する提示手段、
として機能させるコンテンツ提供プログラムが提供される。
According to the present invention,
Computer
Content storage means for storing a voice feature and a content to be presented to a user having the voice feature in association with each other;
A voice feature detecting means for detecting a voice feature unique to the user by comparing the value of the voice component of the user calculated based on the input voice data of the user with index data for judging a tendency with respect to the standard;
Content selection means for selecting content associated with the audio feature detected by the audio feature detection means from among the content stored in the content storage means;
Presenting means for presenting the content selected by the content selecting means;
As a result, a content providing program is provided.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によれば、ユーザ固有の話し方等の音声特徴に基づき、適切なコンテンツを提供することができる。 According to the present invention, it is possible to provide appropriate content based on voice features such as a user-specific way of speaking.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様の構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same constituent elements are denoted by the same reference numerals, and the description thereof is omitted as appropriate.
(第1の実施の形態)
図1は、本実施の形態におけるコンテンツ提供システムの構成の一例を示すブロック図である。
コンテンツ提供システム100は、音声認識部102(音声認識手段)と、音声特徴検出部104(音声特徴検出手段)と、コンテンツ選択部106(コンテンツ選択手段)と、提示部108(提示手段)と、音響モデル記憶部120と、言語モデル記憶部122と、指標データ記憶部124(指標データ記憶手段)と、コンテンツ記憶部126(コンテンツ記憶手段)とを含む。
(First embodiment)
FIG. 1 is a block diagram illustrating an example of a configuration of a content providing system according to the present embodiment.
The
音響モデル記憶部120は、音響モデルを記憶する。言語モデル記憶部122は、言語モデルを記憶する。これらの音響モデルおよび言語モデルは、一般的に用いられているものとすることができる。
The acoustic
音声認識部102は、音響モデル記憶部120に記憶された音響モデルおよび言語モデル記憶部122に記憶された言語モデルに基づき、入力された音声データに対する音声認識結果の候補となる単語の音響スコア、言語スコア、および当該音響スコアおよび当該言語スコアに基づく総スコアを算出する。音声認識部102は、たとえば、総スコアが高い単語を入力された音声データの音声認識結果として選出する。
The
また、音声認識部102は、入力された音声データに基づき、ユーザの種々の音声要素の値を算出する。音声要素は、音声認識を行う際に用いる音声データから抽出する各種パラメータや音声認識結果自体等、ユーザの話し方を示す情報とすることができる。音声要素は、たとえば、音声パワー、話速、音響スコア、言語スコア、認識結果信頼度、認識結果中のフィラー(言い淀み)率等とすることができる。また、音声認識部102は、ユーザが男性か女性かも検出することができる。音声認識部102は、これらの音声要素の値を、所定時間の間に入力された当該ユーザの音声データに基づき算出することができる。
The
指標データ記憶部124は、種々の音声要素につき、標準に対する傾向を判断するための指標データを記憶する。指標データは、複数の話者の音声に基づき算出したものとすることができる。本実施の形態において、指標データ記憶部124は、指標データとして、種々の音声要素につき複数の話者の音声に基づき算出した標準的な値である標準値を記憶する。図2は、指標データ記憶部124の構成の一例を示す図である。ここでは、指標データ記憶部124は、各音声要素につき、男性および女性の標準値をそれぞれ記憶している。
The index
図1に戻り、音声特徴検出部104は、音声認識部102が算出したユーザの音声要素の値を、音声要素毎に、指標データ記憶部124に記憶された当該音声要素の標準値と比較して、当該ユーザに固有の音声特徴を検出する。
Returning to FIG. 1, the voice
たとえば、本実施の形態において、音声認識部102がユーザが女性であることを検出した場合、音声特徴検出部104は、当該ユーザの各音声要素の値を、図2に示した「女性」の標準値と比較する。たとえば、当該ユーザの音声パワーの値が、図2に示した「女性」の「音声パワー」の標準値「a2」より大きい場合は、当該女性の音声パワーの傾向は、「音声パワー大」となる。また、同様に、当該ユーザの認識結果中のフィラー率の値が、図2に示した「女性」の「認識結果中のフィラー率」の標準値「f2」より小さい場合は、当該女性の認識結果中のフィラー率の傾向は、「認識結果中のフィラー率低」となる。なお、ここで、各標準値は一意の値ではなく、ある範囲の値とすることもできる。そのため、たとえば「女性」の「音声パワー」の標準値「a2」として、女性の標準的な音声パワーの範囲を記憶しておくことができる。このようにすれば、ユーザの音声が標準よりも極端に音声パワーが大きい場合や小さい場合に、そのユーザの音声特徴を「音声パワー大」や「音声パワー小」とすることができる。
For example, in this embodiment, when the
また、音声特徴検出部104は、ユーザの各音声要素の値を指標データ記憶部124に記憶された各音声要素の標準値と比較して、標準値からのずれ量を検出することもできる。標準値からのずれ量が大きい場合、そのユーザは、その音声特徴を有する度合が大きいということになる。
In addition, the voice
コンテンツ記憶部126は、音声特徴と、当該音声特徴を有するユーザに提示したいコンテンツとを対応付けて記憶する。ユーザに提示したいコンテンツは、音声特徴に基づき、そのような傾向を有するユーザが苦手としているものに関する内容、得意としているものに関する内容、興味がありそうな内容を想定して選択することができる。
The
図3は、コンテンツ記憶部126の構成の一例を示す図である。コンテンツ記憶部126は、コンテンツ欄と、音声特徴欄とを含む。
たとえばコンテンツ「A(話し方教室のCM)」には、音声特徴として、「音声パワー小」、「音響モデルスコア低」、「認識結果中のフィラー率高」、「話速大」、「認識結果信頼度低」等が対応付けて記憶されている。
FIG. 3 is a diagram illustrating an example of the configuration of the
For example, in the content “A (CM of a speaking class)”, the voice features are “speech power low”, “low acoustic model score”, “high filler rate in recognition result”, “high speech rate”, “recognition result” “Reliability” is stored in association with each other.
ユーザの音声特徴が「フィラー率高」となっているのは、そのユーザの音声データ中にたとえば「えー」、「あのー」等のフィラーが多く含まれているということである。つまり、このような音声特徴を有するユーザは、話し方があまりうまくないことが想定され、自分でも苦手意識を持っている可能性が高い。そのため、このような音声特徴を有するユーザに提示するコンテンツとして、話し方教室のCM(コマーシャル)を対応付けておくことができる。 The voice feature of the user is “high filler rate” because the user's voice data contains many fillers such as “e” and “ano”. That is, it is assumed that a user having such a voice feature is not good at speaking, and is likely to be weak at himself. For this reason, CM (commercial) in the classroom for speaking can be associated with the content presented to the user having such voice characteristics.
また、コンテンツ「B(カラオケ店のCM)」には、音声特徴として、「音声パワー大」等が対応付けて記憶されている。音声パワーが大きいユーザは、カラオケを得意としている可能性が高いと想定される。そのため、このような音声特徴を有するユーザに提示するコンテンツとして、カラオケ店のCM(コマーシャル)を対応付けておくことができる。 In addition, the content “B (CM of the karaoke store)” stores “audio power high” and the like as the audio feature in association with each other. It is assumed that a user with high voice power is likely to be good at karaoke. Therefore, CM (commercial) of a karaoke store can be associated with the content presented to the user having such voice characteristics.
図1に戻り、コンテンツ選択部106は、コンテンツ記憶部126に記憶されたコンテンツの中から、音声特徴検出部104が検出した音声特徴に対応付けられたコンテンツを選択する。提示部108は、コンテンツ選択部106が選択したコンテンツをユーザに提示する。
Returning to FIG. 1, the
たとえば、上述したように、ユーザの音声特徴が「音声パワー大」の場合、コンテンツ選択部106は、図3に示した音声特徴「音声パワー大」に対応付けられたコンテンツ「B(カラオケ店のCM)」を選択する。提示部108は、コンテンツ選択部106が選択したコンテンツ「B(カラオケ店のCM)」を当該ユーザに提示する。
For example, as described above, when the voice feature of the user is “high voice power”, the
また、音声特徴検出部104は、各ユーザの各音声特徴を、各音声要素の標準値からのずれ量等に対応付けてコンテンツ選択部106に出力通知することもできる。たとえば、ユーザの音声特徴が複数ある場合、コンテンツ選択部106は、コンテンツ記憶部126に記憶されたコンテンツの中から、標準値からのずれ量が最も大きい音声特徴に対応付けられたコンテンツを選択することができる。また、たとえば、コンテンツ選択部106は、コンテンツ記憶部126に記憶されたコンテンツの中から、標準値からのずれ量が大きい順に各音声特徴に対応付けられたコンテンツを選択して、順次ユーザに提示するようにすることもできる。
The audio
図4は、本実施の形態におけるコンテンツ提供システム100を含むネットワーク構造を示すブロック図である。
このネットワーク構造は、コンテンツ提供システム100と、コンテンツ提供システム100にネットワーク150を介して接続されたユーザ端末装置200とを含む。ユーザ端末装置200は、ユーザのPC等とすることができる。ユーザ端末装置200は、たとえばパーソナルコンピュータ等により構成することができる。ユーザ端末装置200には、たとえばマイク等の音声入力手段、およびディスプレイ等の表示手段が設けられた構成とすることができる。ユーザ端末装置200の音声入力手段を介して音声データが入力されると、当該音声データは、ネットワーク150を介してコンテンツ提供システム100の音声認識部102(図1参照)に入力される。コンテンツ提供システム100の提示部108がコンテンツを提供すると、当該コンテンツは、ネットワーク150を介してユーザ端末装置200に入力され、ユーザ端末装置200の表示手段に表示される。なお、ユーザ端末装置200のユーザの音声データは、ユーザ端末装置200との対応が取れていれば、たとえば電話回線等、ネットワーク150以外のネットワークを介してコンテンツ提供システム100の音声認識部102に入力される構成とすることもできる。
FIG. 4 is a block diagram showing a network structure including the
This network structure includes a
次に、本実施の形態において、音声データが入力されてから、コンテンツが提供されるまでの手順を説明する。図5は、本実施の形態におけるコンテンツ提供システム100の処理手順を示すフローチャートである。
Next, in this embodiment, a procedure from when audio data is input until content is provided will be described. FIG. 5 is a flowchart showing a processing procedure of the
音声データが入力されると(ステップS100)、音声認識部102は音声認識処理を行う(ステップS102)。この処理は、通常の音声認識処理とすることができる。
When voice data is input (step S100), the
つづいて、音声特徴検出部104は、音声認識部102が検出した音声要素の値を指標データ記憶部124に記憶された各音声要素の標準値と比較して、当該ユーザ固有の音声特徴を検出する(ステップS104)。コンテンツ選択部106は、コンテンツ記憶部126から音声特徴検出部104が検出した音声特徴に対応付けられたコンテンツを選択する(ステップS106)。提示部108は、コンテンツ選択部106が選択したコンテンツをネットワーク150を介してユーザ端末装置200に提供する(ステップS108)。
Subsequently, the voice
本実施の形態におけるコンテンツ提供システム100によれば、ユーザの各種音声要素の値に基づき検出されたユーザ固有の音声特徴に応じて、ユーザに提供するコンテンツが決定される。たとえば、「えー」や「あのー」等のフィラーがよく入る、早口、声がきれい等のユーザ固有の音声特徴に応じてコンテンツが提供される。そのため、ユーザの興味を引くコンテンツを提供できる可能性を高めることができる。また、このようなユーザ固有の音声特徴はあまり変化しないことから、同様のコンテンツを繰り返し提供することもでき、ユーザの興味を高めることもできる。
According to
また、本実施の形態において、図6に示したように、コンテンツ提供システム100は、ユーザ情報を取得するユーザ情報取得部110をさらに含む構成とすることもできる。ここで、ユーザ情報は、たとえばユーザの性別や年齢等を含むことができる。たとえばユーザ情報取得部110がユーザ情報としてユーザの性別を取得した場合は、音声特徴検出部104は、入力されたユーザの性別に基づき、指標データ記憶部124の男性または女性の標準値のいずれかを用いてユーザの音声特徴を検出することができる。
Moreover, in this Embodiment, as shown in FIG. 6, the
また、指標データ記憶部124には、図2に示したように男女別の標準値だけでなく、たとえば年代別の標準値も記憶しておくことができる。たとえば、ユーザ情報取得部110がユーザ情報としてユーザの年齢を取得した場合は、音声特徴検出部104は、入力されたユーザの年齢に基づき、指標データ記憶部124の該当する年代の標準値を用いてユーザの音声特徴を検出することができる。
In addition, the index
(第2の実施の形態)
図7は、本実施の形態におけるコンテンツ提供システムの構成の一例を示すブロック図である。
本実施の形態において、コンテンツ提供システム100が、平均値算出部112(平均値算出手段)および音声要素値蓄積記憶部128(音声要素値蓄積記憶手段)をさらに含む点で第1の実施の形態と異なる。ここではコンテンツ提供システム100がユーザ情報取得部110も含む構成を示す。
(Second Embodiment)
FIG. 7 is a block diagram showing an example of the configuration of the content providing system in the present embodiment.
In the present embodiment, the
本実施の形態において、ユーザ情報取得部110は、ユーザ情報として、ユーザの識別情報を取得することができる。平均値算出部112は、ユーザの識別情報に基づきユーザを識別し、当該ユーザの音声要素の値を当該ユーザの識別情報に対応付けて音声要素値蓄積記憶部128に蓄積する。平均値算出部112は、たとえばその音声データが入力された日時に対応付けて音声要素の値を音声要素値蓄積記憶部128に記憶することができる。また、平均値算出部112は、音声要素値蓄積記憶部128を参照して、異なるときに蓄積された当該ユーザの音声要素の値の平均値を算出する。本実施の形態において、音声特徴検出部104は、平均値算出部112が算出した各音声要素の値の平均値を、指標データ記憶部124に記憶された当該音声要素の標準値と比較して、当該ユーザに固有の音声特徴を検出することができる。
In the present embodiment, the user
音声要素値蓄積記憶部128は、ユーザの識別情報に対応付けて当該ユーザの音声要素の値を蓄積する。とともに、図8は、音声要素値蓄積記憶部128の構成の一例を示す図である。
ここでは、ユーザの識別情報(ユーザID)が「0002f」のユーザの音声要素値データを示す。このユーザは、たとえば少なくとも「2010/01/03」、「2010/01/10」、「2010/01/12」の3回コンテンツ提供システム100にアクセスして音声認識部102を介して音声データを入力している。そのため、各アクセス時の音声データに基づき算出された種々の音声要素の値が音声要素値蓄積記憶部128に記憶されている。
The voice element value
Here, the voice element value data of the user whose user identification information (user ID) is “0002f” is shown. This user, for example, accesses the
この場合、平均値算出部112は、たとえば音声要素「音声パワー」のデータとして、「2010/01/03」、「2010/01/10」、「2010/01/12」にそれぞれ対応付けて記憶されている「a10」、「a11」、「a12」という値から平均値を算出する。音声特徴検出部104は、平均値算出部112が算出した平均値を、指標データ記憶部124に記憶された音声要素「音声パワー」の標準値と比較して、このユーザの音声要素「音声パワー」が標準程度か、標準より大きいか小さいか等の特徴を検出する。
In this case, the average value calculation unit 112 stores, for example, data of the voice element “voice power” in association with “2010/01/03”, “2010/01/10”, and “2010/01/12”, respectively. The average value is calculated from the values “a10”, “a11”, and “a12”. The voice
本実施の形態においても、第1の実施の形態と同様の効果が得られる。また、本実施の形態において、異なるときに蓄積されたユーザの音声要素の値の平均値が用いられるので、ユーザ固有の音声特徴を安定的に検出することができる。 Also in this embodiment, the same effect as that of the first embodiment can be obtained. In the present embodiment, since the average value of the user's voice element values accumulated at different times is used, the user-specific voice characteristics can be stably detected.
また、以上の例では、ユーザ情報取得部110がユーザの識別情報を取得し、平均値算出部112がユーザの識別情報に基づきユーザを識別する例を示した。しかし、コンテンツ提供システム100は、ユーザ情報取得部110を有しない構成とすることもでき、平均値算出部112は、ユーザの音声に基づく音声認証によってユーザを識別するようにすることもできる。
In the above example, the user
図1に示したコンテンツ提供システム100の各構成要素は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。コンテンツ提供システム100の各構成要素は、任意のコンピュータのCPU、メモリ、メモリにロードされた本図の構成要素を実現するプログラム、そのプログラムを格納するハードディスクなどの記憶ユニット、ネットワーク接続用インタフェースを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
Each component of the
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
第1の実施の形態において、指標データ記憶部124に男女別または年齢別に各音声要素の標準値を記憶する例を示したが、標準値は、その他種々の分類毎に記憶しておくことができる。たとえば、複数の音声要素の中の一つに注目して、その音声要素の値に応じた分類毎に標準値を記憶することもできる。
In the first embodiment, an example is shown in which the standard value of each voice element is stored in the index
一例を図9に示す。ここでは、音声パワーが大、中、小のそれぞれについて、その他の音声要素である話速、音響スコア、言語スコア、認識結果信頼度、認識結果中のフィラー率等の標準値がそれぞれ記憶された例を示す。音声認識部102に音声データが入力され、音声認識部102により各音声要素の値が算出されると、音声特徴検出部104は、そのユーザの音声パワーの値に基づきユーザの音声の音声パワーが大、中、小のいずれに該当するかを判断する。そして、該当する音声パワーに対応付けられた他の音声要素の標準値を用いて、それら他の音声要素が標準より大きいか小さいか等を判断する。たとえば、入力された音声データの音声パワーの値がa1〜a2だったとすると、このユーザの音声パワーは大ということになり、このユーザの話速を判断する際には、標準値「b3」が用いられる。
An example is shown in FIG. Here, standard values such as speech speed, acoustic score, language score, recognition result reliability, filler rate in recognition results, etc., which are other speech elements, are stored for each of the speech power of large, medium and small An example is shown. When voice data is input to the
また、指標データ記憶部124は、指標データとして、各音声要素の標準値ではなく、標準に対する傾向を判断するための指標値を記憶することもできる。一例を図10に示す。ここでは、音声要素として音声パワーおよび話速について、それぞれ大(高)、標準(特徴なし)、小(低)と判断するための指標値が記憶されている。音声認識部102に音声データが入力され、音声認識部102により各音声要素の値が算出されると、音声特徴検出部104は、たとえばそのユーザの音声パワーの値が指標データ記憶部124の大(高)、標準(特徴なし)、小(低)のいずれの指標値に含まれるかを判断し、当該ユーザに固有の音声特徴を検出する。
In addition, the index
また、指標データ記憶部124は、指標データとして、複数の話者の音声の各音声要素の値のばらつきや分散度を示すデータを記憶することもできる。音声特徴検出部104は、入力された音声データの各音声要素の値に基づき、当該ユーザの音声要素が複数の話者の音声の各音声要素の値のたとえば平均値からどの方向にずれているか、またどの程度ずれているか等に基づき、当該ユーザの音声特徴を検出することができる。
In addition, the index
また、音声特徴検出部104は、音声認識部102から入力されたユーザの音声データに基づき算出された各音声要素の値を、指標値記憶部124にフィードバックして、指標値記憶部124の指標データを更新していくこともできる。これにより、指標値記憶部124の指標データに用いられる話者の母数を増やすことができ、精度の高い指標データを構築することができる。
Also, the voice
また、以上の実施の形態においては、音声データを入力したユーザのユーザ端末装置200にコンテンツが提供されるのみの例を示したが、ユーザの音声特徴が検出された場合、当該音声特徴を有するユーザを募集しているような広告主とユーザとをマッチングするような構成とすることもできる。たとえば、コンテンツ記憶部126の各コンテンツに広告主への通知の要否の設定も対応付けて記憶しておくことができる。この場合、広告主が音声特徴として「音声パワーが大きい」等登録しており、通知要になっている場合、ユーザの音声パワーが大きいことが検出された場合に、ユーザの了承を得た後に当該ユーザの情報を広告主に転送するような設定とすることもできる。
Moreover, in the above embodiment, an example in which content is only provided to the
さらに、たとえば「ある声優との類似度」等を音声要素とすることもできる。この場合、コンテンツ提供システム100は、当該声優の声の特徴との類似度を判断して、類似度が高ければ、その声優に関するコンテンツが提示されるように設定しておくことができる。
Furthermore, for example, “similarity with a certain voice actor” or the like can be used as a voice element. In this case, the
100 コンテンツ提供システム
102 音声認識部
104 音声特徴検出部
106 コンテンツ選択部
108 提示部
110 ユーザ情報取得部
112 平均値算出部
120 音響モデル記憶部
122 言語モデル記憶部
124 指標データ記憶部
126 コンテンツ記憶部
128 音声要素値蓄積記憶部
150 ネットワーク
200 ユーザ端末装置
DESCRIPTION OF
Claims (6)
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出手段と、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出手段が検出した前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択手段と、
前記コンテンツ選択手段が選択したコンテンツを提示する提示手段と、
を含むコンテンツ提供システム。 Content storage means for storing the audio feature and the content to be presented to the user having the audio feature in association with each other;
A voice feature detecting means for detecting a voice feature unique to the user by comparing a value of the voice component of the user calculated based on the input voice data of the user with index data for judging a tendency with respect to a standard; ,
Content selection means for selecting content associated with the audio features detected by the audio feature detection means from among the contents stored in the content storage means;
Presenting means for presenting the content selected by the content selecting means;
Content providing system including
前記音声要素の値の前記指標データは、複数の話者の音声に基づき算出されたものであるコンテンツ提供システム。 The content providing system according to claim 1,
The content providing system, wherein the index data of the value of the voice element is calculated based on voices of a plurality of speakers.
前記音声要素の値の前記指標データを記憶する指標データ記憶手段をさらに含むコンテンツ提供システム。 The content providing system according to claim 1 or 2,
A content providing system further comprising index data storage means for storing the index data of the value of the audio element.
ユーザの識別情報に対応付けて当該ユーザの前記音声要素の値を蓄積する音声要素値蓄積記憶手段と、
前記ユーザを識別し、当該ユーザの前記音声要素の値を当該ユーザの識別情報に対応付けて前記音声要素値蓄積記憶手段に蓄積するとともに、異なるときに蓄積された当該ユーザの前記音声要素の平均値を算出する平均値算出手段と、
をさらに含み、
前記音声特徴検出手段は、前記平均値算出手段が算出した各前記音声要素の平均値を、当該音声要素の標準値と比較して、当該ユーザに固有の音声特徴を検出するコンテンツ提供システム。 The content providing system according to any one of claims 1 to 3,
Voice element value storage means for storing the value of the voice element of the user in association with the identification information of the user;
The user is identified, the value of the voice element of the user is stored in the voice element value storage unit in association with the identification information of the user, and the average of the voice elements of the user stored at different times An average value calculating means for calculating a value;
Further including
The content providing system for detecting an audio feature unique to the user by comparing the average value of the audio elements calculated by the average value calculating unit with a standard value of the audio element.
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出ステップと、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出ステップで検出された前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択ステップと、
前記コンテンツ選択ステップで選択されたコンテンツを提示する提示ステップと、
を含むコンテンツ提供方法。 A content providing method using a computer system including a content storage unit that stores an audio feature and content to be presented to a user having the audio feature in association with each other,
A voice feature detection step of detecting a voice feature unique to the user by comparing a value of the voice component of the user calculated based on the input voice data of the user with index data for determining a tendency with respect to a standard; ,
A content selection step of selecting content associated with the audio feature detected in the audio feature detection step from the content stored in the content storage means;
A presentation step of presenting the content selected in the content selection step;
A content providing method including:
音声特徴と、当該音声特徴を有するユーザに提示したいコンテンツとを対応付けて記憶するコンテンツ記憶手段、
入力されたユーザの音声データに基づき算出した当該ユーザの音声要素の値を、標準に対する傾向を判断するための指標データと比較して、当該ユーザに固有の音声特徴を検出する音声特徴検出手段、
前記コンテンツ記憶手段に記憶された前記コンテンツの中から、前記音声特徴検出手段が検出した前記音声特徴に対応付けられたコンテンツを選択するコンテンツ選択手段、
前記コンテンツ選択手段が選択したコンテンツを提示する提示手段、
として機能させるコンテンツ提供プログラム。 Computer
Content storage means for storing a voice feature and a content to be presented to a user having the voice feature in association with each other;
A voice feature detecting means for detecting a voice feature unique to the user by comparing the value of the voice component of the user calculated based on the input voice data of the user with index data for judging a tendency with respect to the standard;
Content selection means for selecting content associated with the audio feature detected by the audio feature detection means from among the content stored in the content storage means;
Presenting means for presenting the content selected by the content selecting means;
Content providing program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033821A JP5589426B2 (en) | 2010-02-18 | 2010-02-18 | Content providing system, content providing method, and content providing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010033821A JP5589426B2 (en) | 2010-02-18 | 2010-02-18 | Content providing system, content providing method, and content providing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011170622A true JP2011170622A (en) | 2011-09-01 |
JP5589426B2 JP5589426B2 (en) | 2014-09-17 |
Family
ID=44684682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010033821A Active JP5589426B2 (en) | 2010-02-18 | 2010-02-18 | Content providing system, content providing method, and content providing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5589426B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153479A (en) * | 2013-02-06 | 2014-08-25 | Nippon Telegraph & Telephone East Corp | Diagnosis system, diagnosis method, and program |
JP2015018344A (en) * | 2013-07-09 | 2015-01-29 | シャープ株式会社 | Reproduction device, control method for reproduction device, and control program |
WO2017168985A1 (en) * | 2016-03-29 | 2017-10-05 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2020190693A (en) * | 2019-05-23 | 2020-11-26 | 富士通株式会社 | Voice actor evaluation program, voice actor evaluation method, and voice actor evaluation system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006121611A (en) * | 2004-10-25 | 2006-05-11 | Nippon Telegraph & Telephone West Corp | Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium |
JP2008170820A (en) * | 2007-01-12 | 2008-07-24 | Takeshi Moriyama | Content provision system and method |
-
2010
- 2010-02-18 JP JP2010033821A patent/JP5589426B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006121611A (en) * | 2004-10-25 | 2006-05-11 | Nippon Telegraph & Telephone West Corp | Telephone system, telephone system management apparatus, advertisement content distribution method, advertisement content distribution program and recording medium |
JP2008170820A (en) * | 2007-01-12 | 2008-07-24 | Takeshi Moriyama | Content provision system and method |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014153479A (en) * | 2013-02-06 | 2014-08-25 | Nippon Telegraph & Telephone East Corp | Diagnosis system, diagnosis method, and program |
JP2015018344A (en) * | 2013-07-09 | 2015-01-29 | シャープ株式会社 | Reproduction device, control method for reproduction device, and control program |
WO2017168985A1 (en) * | 2016-03-29 | 2017-10-05 | ソニー株式会社 | Information processing device, information processing method, and program |
CN108780456A (en) * | 2016-03-29 | 2018-11-09 | 索尼公司 | Information processing unit, information processing method and program |
JP2020190693A (en) * | 2019-05-23 | 2020-11-26 | 富士通株式会社 | Voice actor evaluation program, voice actor evaluation method, and voice actor evaluation system |
JP7243447B2 (en) | 2019-05-23 | 2023-03-22 | 富士通株式会社 | VOICE ACTOR EVALUATION PROGRAM, VOICE ACTOR EVALUATION METHOD, AND VOICE ACTOR EVALUATION SYSTEM |
Also Published As
Publication number | Publication date |
---|---|
JP5589426B2 (en) | 2014-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11495224B2 (en) | Contact resolution for communications systems | |
TWI509595B (en) | Systems and methods for name pronunciation | |
US11189277B2 (en) | Dynamic gazetteers for personalized entity recognition | |
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
US8972265B1 (en) | Multiple voices in audio content | |
JP5596649B2 (en) | Document markup support apparatus, method, and program | |
US20140074470A1 (en) | Phonetic pronunciation | |
US20130253924A1 (en) | Speech Conversation Support Apparatus, Method, and Program | |
JP5496863B2 (en) | Emotion estimation apparatus, method, program, and recording medium | |
US11727913B2 (en) | Automatically associating context-based sounds with text | |
US11355099B2 (en) | Word extraction device, related conference extraction system, and word extraction method | |
KR102029276B1 (en) | Answering questions using environmental context | |
JP2018146715A (en) | Voice interactive device, processing method of the same and program | |
TW201919042A (en) | Voice interactive device and voice interaction method using the same | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
CN110289015B (en) | Audio processing method, device, server, storage medium and system | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
JP2016045584A (en) | Response generation device, response generation method, and response generation program | |
JP5589426B2 (en) | Content providing system, content providing method, and content providing program | |
JP6254504B2 (en) | Search server and search method | |
WO2019107170A1 (en) | Urgency estimation device, urgency estimation method, and program | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
US20190088258A1 (en) | Voice recognition device, voice recognition method, and computer program product | |
JP5152588B2 (en) | Voice quality change determination device, voice quality change determination method, voice quality change determination program | |
CN110232911B (en) | Singing following recognition method and device, storage medium and electronic equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5589426 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |