JP2008170820A - Content provision system and method - Google Patents

Content provision system and method Download PDF

Info

Publication number
JP2008170820A
JP2008170820A JP2007005155A JP2007005155A JP2008170820A JP 2008170820 A JP2008170820 A JP 2008170820A JP 2007005155 A JP2007005155 A JP 2007005155A JP 2007005155 A JP2007005155 A JP 2007005155A JP 2008170820 A JP2008170820 A JP 2008170820A
Authority
JP
Japan
Prior art keywords
content
emotion
emotion type
word
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007005155A
Other languages
Japanese (ja)
Inventor
Takeshi Moriyama
剛 森山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2007005155A priority Critical patent/JP2008170820A/en
Publication of JP2008170820A publication Critical patent/JP2008170820A/en
Pending legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To select an advertisement etc., to be displayed according to a speaker's feeling in order to enhance advertisement effect. <P>SOLUTION: A speaker's voice is acquired (S11), and the feeling of the speaker is analyzed based upon the acquired speech (S12); and the analysis results of the feeling are stored in a database (S13), and screen display is changed based upon the feeling analysis results (S14). For example, when the feeling analysis results show "excitement", advertisement prestored while related to a feeling classification "excitement" is displayed on the screen of a monitor that the speaker is viewing. Further, the screen display is changed based upon a word spotting result (S15). For example, when a word "hot-spring" is extracted from a conversation, advertisement prestored while related to the word "hot-spring" is displayed on the screen of the monitor that the speaker is viewing. Then banner advertisement displayed on the screen is clicked on with a pointing device such as a mouse to access a link-destination Web site of the banner advertisement (S16). <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、例えばパーソナルコンピュータ及びインターネットを用いて2以上の話者が会話する場合において、入力音声から話題や話者の感情を判定し、その話題や感情に適切な広告やコメントなどのコンテンツをパーソナルコンピュータのモニターに表示させるシステム及び方法に関する。   In the present invention, when two or more speakers have a conversation using, for example, a personal computer and the Internet, the topic and the emotion of the speaker are determined from the input voice, and contents such as advertisements and comments suitable for the topic and emotion are displayed. The present invention relates to a system and method for displaying on a monitor of a personal computer.

入力音声から感情を検出する方法及び装置に関する技術が提案されている(例えば、特許文献1参照)。
特願2002−293926号公報
A technique relating to a method and apparatus for detecting emotion from input speech has been proposed (see, for example, Patent Document 1).
Japanese Patent Application No. 2002-293926

特許文献1では段落[0032]に記載されているように、所定の話者について感情認識を行っているが、不特定の話者の感情を判定することはできなかった。
そこで、本発明は、不特定の話者が不特定の環境で不特定の発話内容で発話した場合であっても、話者の感情を判定し、判定された感情に対して適切なコメントや広告を表示することを可能とする。
In Patent Document 1, as described in paragraph [0032], emotion recognition is performed for a predetermined speaker, but the emotion of an unspecified speaker cannot be determined.
Therefore, the present invention determines a speaker's emotion even when an unspecified speaker speaks with an unspecified utterance content in an unspecified environment, and an appropriate comment or Allows advertisements to be displayed.

本発明の第1の特徴は、コンテンツ提供システムであって、単語とコンテンツを関連付けて記憶する手段と、会話音声の中から単語を抽出する単語抽出手段と、単語抽出手段によって抽出された単語に関連付けて記憶されているコンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。   A first feature of the present invention is a content providing system, in which a word and content are stored in association with each other, a word extracting unit that extracts a word from conversation speech, and a word extracted by the word extracting unit. It is provided with a content reading means for reading the content stored in association with the content transmitting means for sending the read content to the content reproduction means.

コンテンツとは、例えば広告やコメントを含む。
記憶する手段とは、磁気的、電気的、光学的又は光磁気的に情報を記憶する手段を含み、具体的にはハード・ディスク・ドライブ(HDD)、ランダム・アクセス・メモリ(RAM)、CDドライブ、DVDドライブ、MOドライブを含む。
単語抽出手段とは、ワードスポッティングと称される技術において使用されるものを含む。
コンテンツ再生手段とは、例えばGIF又はJPEG形式の画像やHTMLで記述されたWebサイトを表示可能なパーソナルコンピュータや携帯電話機を言う。
Content includes, for example, advertisements and comments.
The means for storing includes means for storing information magnetically, electrically, optically or magneto-optically, specifically, hard disk drive (HDD), random access memory (RAM), CD Includes drives, DVD drives, and MO drives.
The word extraction means includes those used in a technique called word spotting.
The content reproduction means refers to, for example, a personal computer or a mobile phone capable of displaying a GIF or JPEG format image or a website described in HTML.

本発明の第2の特徴は、第1の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、1つの単語に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。   In addition to the first feature, the second feature of the present invention further includes means for storing a history of the content transmitted by the content transmission unit, and a plurality of contents are stored with priority for one word. The content reading unit refers to the history of the transmitted content from among the plurality of contents stored in association with the word extracted by the word extracting unit, and prioritizes the content transmitted most recently. It is to read the content with higher rank.

「1つの単語に対して複数のコンテンツが優先順位付きで記憶され、」とは、例えば「オンセン」という単語に対して、旅行会社Aの広告が優先順位第1位で記憶され、旅行会社Bの広告が優先順位第2位で記憶され、また「ケーキ」という音声の波形に対して、銀座A店の広告が優先順位第1位で記憶され、青山B店の広告が優先順位第2位で記憶されていることを言う。   “A plurality of contents are stored with priority for one word” means that, for example, the advertisement of travel company A is stored at the top priority for the word “Onsen”, and travel company B Is stored in the second priority, and the advertisement of the Ginza A store is stored in the first priority, and the advertisement in the Aoyama B store is the second priority in the waveform of the voice “cake”. Say that is remembered in.

「コンテンツ読み取り手段は、単語抽出手段によって抽出された単語に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る」とは、例えば
「オンセン」という単語が抽出され、
「オンセン」という単語に関連付けられているコンテンツの中での優先順位が第1位の旅行会社Aの広告が送信され、
その後に「ケーキ」という単語が抽出され、「ケーキ」という単語に関連付けられているコンテンツの中での優先順位が第1位の銀座A店又は第2位の青山B店の広告が送信され、
その後に再び「オンセン」という単語が抽出された場合に、「オンセン」という単語に関連付けられているコンテンツの中での優先順位第2位の旅行会社Bの広告を読み取ることを言う。
“The content reading means refers to the history of the transmitted content from among the plurality of contents stored in association with the word extracted by the word extracting means, and then prioritizes the content that has been transmitted most recently. "Read content with high" means, for example, the word "Onsen"
An advertisement for travel agency A, which has the highest priority among the content associated with the word "Onsen"
After that, the word “cake” is extracted, and the advertisement of the first priority Ginza A store or the second highest Aoyama B store in the content associated with the word “cake” is transmitted,
Thereafter, when the word “Onsen” is extracted again, it means reading the advertisement of travel company B having the second highest priority among the contents associated with the word “Onsen”.

本発明の第3の特徴は、コンテンツ提供システムであって、感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えることにある。   According to a third aspect of the present invention, there is provided a content providing system, an emotion type content storage unit that stores an emotion type and content in association with each other, and a feature amount calculation unit that calculates a feature amount of a voice input from the voice input unit And an emotion type determining means for determining an emotion type based on the calculated audio feature amount, a content reading means for reading the content stored in association with the determined emotion type, and the read content Transmitting means for sending to the content reproduction means.

特徴量算出手段は、音声のパワーの平均、標準偏差、及びピッチの平均、標準偏差などを算出し、それら平均、標準偏差を所定の数式に代入して計算可能な手段である。   The feature amount calculating means is a means that can calculate an average of voice power, a standard deviation, an average of pitch, a standard deviation, and the like, and substituting these averages and standard deviations into a predetermined formula.

本発明の第4の特徴は、第3の特徴に加えて、感情種別判定手段によって判定された感情種別を第1の所定時間毎に記憶する手段と、第1の所定時間毎に記憶された感情種別の中から第2の所定時間毎に1つの感情種別を抽出する感情種別抽出手段と、をさらに備え、コンテンツ読み取り手段は、感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを感情種別コンテンツ記憶手段から読み取ることにある。
感情種別抽出手段は、例えば、感情種別を1秒ごとに記憶し、5秒ごとに直近5秒間で出現頻度が最も多い感情を抽出する。
According to a fourth feature of the present invention, in addition to the third feature, a means for storing the emotion type determined by the emotion type determining means at every first predetermined time and a first predetermined time are stored. An emotion type extracting unit that extracts one emotion type from the emotion types every second predetermined time, and the content reading unit is stored in association with the emotion type extracted by the emotion type extracting unit. The content is to be read from the emotion type content storage means.
For example, the emotion type extraction unit stores the emotion type every second, and extracts the emotion having the highest appearance frequency in the latest 5 seconds every 5 seconds.

本発明の第5の特徴は、第4の特徴に加えて、コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、1つの感情種別に対して複数のコンテンツが優先順位付きで記憶され、コンテンツ読み取り手段は、感情種別判定手段によって判定された感情種別に関連付けて記憶されている複数のコンテンツの中から、送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取ることにある。   In addition to the fourth feature, the fifth feature of the present invention further comprises means for storing a history of content transmitted by the content sending means, and a plurality of contents are given priority for one emotion type. The stored content reading means refers to the history of the transmitted content from among the plurality of contents stored in association with the emotion type determined by the emotion type determining means, and Next, the content with the highest priority is read.

本発明の第6の特徴は、第3乃至第5の特徴に加えて、音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差であることにある。   A sixth feature of the present invention resides in that, in addition to the third to fifth features, the voice feature amount is an average and standard deviation of voice power and an average and standard deviation of voice pitch.

本発明の第7の特徴は、コンテンツ提供システムであって、感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、入力された音声に基づいて、感情種別を判定する感情種別判定手段と、会話音声の中から単語を抽出する単語抽出手段と、前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えることにある。   A seventh feature of the present invention is a content providing system, which stores an advertisement associated with an emotion type, an advertisement associated with a word, and a comment associated with both the emotion type and the word, Based on the input voice, the emotion type determining means for determining the emotion type, the word extracting means for extracting a word from the conversation voice, and the emotion type determined by the emotion type determining means are stored in association with each other. The advertisement stored in association with the word extracted by the word extracting means, and the emotion type determined by the emotion type determining means and the word extracted by the word extracting means An advertisement comment reading means for reading stored comments, and the read advertisement and comment are containerized. It lies in comprising: a content transmission unit for sending to Tsu reproducing means.

本発明によれば、会話に含まれる単語や話者の感情に応じた広告やコメントなどのコンテンツを表示させることが可能となる。   According to the present invention, it is possible to display contents such as advertisements and comments according to words included in a conversation and emotions of speakers.

以下に本発明を実施するための最良の形態を説明する。なお、以下の説明は、単なる例示に過ぎず、本発明の技術的範囲は以下の説明に限定されるものではない。   The best mode for carrying out the present invention will be described below. The following description is merely an example, and the technical scope of the present invention is not limited to the following description.

[全体イメージ]
感情音声識別ツールを利用して話者の感情データ及び、会話中の単語を取得(ワードスポッティング)する。ツール利用後、パソコン版Webサイトと携帯版Webサイトを表示する。取得した感情データと単語に基づいて各種サービスを閲覧可能とする。取得した感情データをもとに「声占い」、「声健康」等の各種サービスをブラウザで閲覧することができる。
[Overall image]
The emotional voice identification tool is used to acquire the emotional data of the speaker and the word in conversation (word spotting). After using the tool, display the PC version website and the mobile version website. Various services can be browsed based on the acquired emotion data and words. Various services such as “voice fortune-telling” and “voice health” can be browsed on the browser based on the acquired emotion data.

[音声感情識別ツール]
音声感情又は会話中に発せられた単語(ワード)に関連づけられた広告及びその広告に関連したコメントを表示させ、その広告がクリックされ、その広告に関連付けられているリンク先のウェブサイトにジャンプさせる確率を高める。
[Voice emotion recognition tool]
Displays advertisements associated with voice emotions or words uttered during a conversation and comments associated with the advertisements, clicks on the advertisements, and jumps to the linked website associated with the advertisement Increase probability.

図20は、音声感情識別ツールの画面デザインの一例を示す。同図に示す画面27は、音声感情に関連づけられたバナー広告271と、会話中に発せられた単語に関連づけられたバナー広告272と、音声感情及び会話中に発せられた単語に関連づけられたコメント273と、音声感情バロメーター274を含む。   FIG. 20 shows an example of the screen design of the voice emotion identification tool. The screen 27 shown in the figure includes a banner advertisement 271 associated with the voice emotion, a banner advertisement 272 associated with the word uttered during the conversation, and a comment associated with the voice emotion and the word uttered during the conversation. 273 and a voice emotion barometer 274.

バナー広告271は、話者の感情に基づいて選択される。例えば、「興奮」という感情種別と「興奮しているときに表示させる広告」とを関連付けて記憶し、また「悲しい」という感情種別と「悲しいときに表示させる広告」とを関連付けて記憶しておく。そして、話者の感情が「興奮」と判断された場合には、「興奮しているときに表示させる広告」が表示される。話者の感情が「悲しい」と識別された場合には、「悲しいときに表示させる広告」が表示される。   The banner advertisement 271 is selected based on the emotion of the speaker. For example, the emotion type “excited” and the “advertisement to be displayed when excited” are stored in association with each other, and the emotion type “sad” and the “advertisement to be displayed when sad” are stored in association with each other. deep. When the speaker's emotion is determined to be “excited”, “an advertisement to be displayed when excited” is displayed. When the emotion of the speaker is identified as “sad”, “an advertisement to be displayed when sad” is displayed.

バナー広告272は、会話中に発せられた単語に基づいて選択される。例えば、「温泉」という単語と「オンセンと発音されたときに表示させる広告」とを関連付けて記憶し、また「鍋」という単語と「ナベと発音されたときに表示させる広告」とを関連付けて記憶しておく。そして、会話中に「オンセン」と発音されたと判断された場合には、「オンセンと発音されたときに表示させる広告」が表示される。会話中に「ナベ」と発音されたと判断された場合には、「ナベと発音されたときに表示させる広告」が表示される。   The banner advertisement 272 is selected based on words uttered during the conversation. For example, the word “hot spring” and “an advertisement to be displayed when pronounced as Onsen” are stored in association with each other, and the word “nabe” is associated with “an advertisement to be displayed when pronounced as pan”. Remember. If it is determined that “onsen” is pronounced during the conversation, “an advertisement to be displayed when it is pronounced onsen” is displayed. If it is determined that “nabe” is pronounced during the conversation, “an advertisement to be displayed when it is pronounced” is displayed.

コメント273は、音声感情及び会話中に発せられた単語に基づいて選択される。例えば、「悲しい」という感情種別と「温泉」という単語と「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶し、また「興奮」という感情種別と「温泉」という単語と「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」とを関連付けて記憶しておく。そして、話者の感情が「悲しい」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「悲しんでいると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。また、話者の感情が「興奮している」と識別され、かつ会話中に「オンセン」と発音されたと判断された場合には、「興奮していると判断され、かつオンセンと発音されたときに表示させるコメント」が表示される。   The comment 273 is selected based on the voice emotion and the word uttered during the conversation. For example, the emotion type “sad”, the word “hot spring” and the “comment to be displayed when it is determined to be sad and pronounced onsen” are stored in association with each other, and the emotion type “excitement” The word “hot spring” and the “comment to be displayed when it is determined to be excited and pronounced Onsen” are stored in association with each other. And if the speaker's emotion is identified as “sad” and it is determined that “onsen” is pronounced during the conversation, “when it is determined to be sad and pronounced as onsen, it is displayed. Comment "is displayed. Also, if the speaker ’s emotion is identified as “excited” and it is determined that “onsen” was pronounced during the conversation, then “excited and onsen was pronounced” "Comment to be displayed when" is displayed.

「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、又は「音声感情及びワードに基づいて選択されたコメント」のそれぞれが表示されると高い広告効果が発揮されるため、好ましい。   When each of “advertising selected based on voice emotion”, “advertising selected based on word”, or “comment selected based on voice emotion and word” is displayed, a high advertising effect is exhibited. Therefore, it is preferable.

「音声感情に基づいて選択された広告」、「ワードに基づいて選択された広告」、並びに「音声感情及びワードに基づいて選択されたコメント」が組み合わせて表示されるとより一層高い広告効果が発揮されるため、これら全てが表示されることが好ましい。   When “advertising selected based on voice emotion”, “advertising selected based on word”, and “comment selected based on voice emotion and word” are displayed in combination, a higher advertising effect is obtained. All of these are preferably displayed in order to be demonstrated.

[全体フロー]
<感情音声識別ツール利用時>
図1は、感情音声識別ツール利用時の処理の流れを示すフローチャートである。図1に示すように、ステップS11でマイクロフォンなどを用いて音声を取得し、ステップS12で感情を分析し、ステップS13で感情の分析結果をデータベースに蓄積し、ステップS14で分析結果に基づいて画面表示を変更し、またステップS15でワードスポッティング結果から画面表示を変更し、ステップS16でバナー広告などがクリックされリンク先のウェブサイトへアクセスする。
[Overall flow]
<When using the emotion voice recognition tool>
FIG. 1 is a flowchart showing the flow of processing when the emotional voice identification tool is used. As shown in FIG. 1, voice is acquired using a microphone or the like in step S11, emotions are analyzed in step S12, emotion analysis results are accumulated in a database in step S13, and a screen is displayed based on the analysis results in step S14. In step S15, the screen display is changed from the word spotting result. In step S16, a banner advertisement or the like is clicked, and the linked website is accessed.

<パソコン又は携帯電話でのパーソナルサイト閲覧時>
図2は、パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。図2に示すように、ステップS21でWebサイトにログインし、ステップS22でツール利用時に蓄積されたデータをベースとした各種サービスを閲覧し、ステップS23でバナー広告からリンク先へアクセスする。
<When viewing a personal site on a PC or mobile phone>
FIG. 2 is a flowchart showing the flow of processing when browsing a personal site on a personal computer or mobile phone. As shown in FIG. 2, in step S21, the user logs in to the website, browses various services based on the data accumulated when using the tool in step S22, and accesses the link destination from the banner advertisement in step S23.

[サービス提供システム全体構成例]
図3は、サービス提供システムの全体構成の一例を示すブロック図である。同図に示す例では、登録メンバー21の会話はマイクロフォン22を介してパーソナルコンピュータ(PC)23に取り込まれる。メンバー認証データベース31は、登録メンバー21の詳細情報(メンバー名、パスワード等)を蓄積する。コンテンツ配信サーバ32は、PC23の感情音声識別ツールからのリクエストを受けて、感情音声結果とメンバー名から決定される表示すべきコメントと広告をコメントサーバ33と広告管理サーバ34から取得し、PC23の音声感情識別ツールにコメントデータと広告データを送信する。
[Example of overall service provision system configuration]
FIG. 3 is a block diagram illustrating an example of the overall configuration of the service providing system. In the example shown in the figure, the conversation of the registered member 21 is taken into the personal computer (PC) 23 via the microphone 22. The member authentication database 31 stores detailed information (member name, password, etc.) of the registered member 21. In response to the request from the emotion voice identification tool of the PC 23, the content distribution server 32 acquires a comment and an advertisement to be displayed determined from the emotion voice result and the member name from the comment server 33 and the advertisement management server 34, and Send comment data and advertisement data to the voice emotion identification tool.

コメントサーバ33は、コンテンツ配信サーバ32から受けた感情音声結果とメンバー名から決定される表示すべきコメントデータをコンテンツ配信サーバ32に送信し、メンバー別の感情音声データ履歴を保持する。広告管理サーバ34は、コンテンツ配信サーバ32から受けた感情音声結果とメンバー名から決定される表示すべき広告データをコンテンツ配信サーバ32に送信し、メンバー別の広告データ履歴を保持する。   The comment server 33 transmits to the content distribution server 32 the comment data to be displayed, which is determined from the emotion sound result received from the content distribution server 32 and the member name, and holds the emotion sound data history for each member. The advertisement management server 34 transmits the advertisement data to be displayed determined from the emotion sound result received from the content distribution server 32 and the member name to the content distribution server 32, and holds the advertisement data history for each member.

感情音声データベース35は、PC23の感情音声識別ツールから送信されてきた特徴量データ26をメンバー(話者21)毎に保存する。パーソナルデータベース36は、PC23の感情音声識別ツールから送信されてきた感情音声識別結果と表示した広告番号(分析結果データ25)をメンバー毎に保存する。分析結果データ25は、パーソナルデータベース36からサイト運営用Webサーバ37へ送られる。   The emotion voice database 35 stores the feature amount data 26 transmitted from the emotion voice identification tool of the PC 23 for each member (speaker 21). The personal database 36 stores the emotional voice identification result transmitted from the emotional voice identification tool of the PC 23 and the displayed advertisement number (analysis result data 25) for each member. The analysis result data 25 is sent from the personal database 36 to the site management Web server 37.

サイト運営用Webサーバ37は、PC23及び携帯電話機24から閲覧可能なサイト環境を構築する。提供サービスデータベース38は、サイト運営用Webサーバ37から受けたメンバー名をもとに、パーソナルデータベース36から最新の感情識別結果を取得し、取得した感情識別結果から「声占い」、「声健康」等の提供サービスデータをサイト運営用Webサーバ37に送信する。   The site management Web server 37 constructs a site environment that can be browsed from the PC 23 and the mobile phone 24. The provided service database 38 acquires the latest emotion identification result from the personal database 36 based on the member name received from the web server 37 for site management, and “voice fortune-telling” and “voice health” from the acquired emotion identification result. Service data such as the above is transmitted to the Web server 37 for site operation.

[感情認識の基本コンセプト]
言語や話者に依存しない単純な特徴量として,音量や音高といった韻律成分を用いる。特徴量の所定時間(例えば、過去1秒間)の基本統計量をもって,話者の現在の話し方とする。話し方の定常状態(例えば、過去5秒間の基本統計量)からの逸脱量から,各感情の度合いを求める。
[Basic concept of emotion recognition]
Prosodic components such as volume and pitch are used as simple features that do not depend on language or speaker. The basic statistic for a predetermined time (for example, the past one second) of the feature amount is used as the speaker's current way of speaking. The degree of each emotion is obtained from the amount of deviation from the steady state of speaking (for example, basic statistics over the past 5 seconds).

[感情識別ソフトウェア(ツール)を構成するDLL]
感情識別ソフトウェア(ツール)を構成するDLLは、EmotionMonitorDLL.dll、WaveIn.dll、Fft_C.dllなどである。EmotionMonitorDLL.dllは、音声特徴量を算出しその統計量から感情を計測する。音声特徴量には、音声入力波形データ、スペクタル包絡データ、ピッチ軌跡データ、パワー軌跡データが含まれる。WaveIn.dllは、マイクロフォンから音声を取得する。WaveIn.dllは、Windows(登録商標)系オペレーティングシステムでサウンドを録音する場合に、一般的に使用されているマルチメディアAPI(Application Program Interface)を使用して、音声入力デバイスからツールが用意した記憶領域(バッファ)に指定された長さの音声波形を更新格納し利用できるようにする。Fft_C.dllは、高速フーリエ変換に使用可能なAPIであって、周波数スペクトルを計算する。
[DLL constituting emotion identification software (tool)]
The DLLs that make up the emotion identification software (tool) are EmotionMonitorDLL.dll, WaveIn.dll, Fft_C.dll, and the like. EmotionMonitorDLL.dll calculates voice features and measures emotions from the statistics. The voice feature amount includes voice input waveform data, spectral envelope data, pitch trajectory data, and power trajectory data. WaveIn.dll gets audio from the microphone. WaveIn.dll is a memory prepared by the tool from the voice input device using the multimedia API (Application Program Interface) that is generally used when recording sound in the Windows (registered trademark) operating system. The voice waveform of the length specified in the area (buffer) is updated and stored so that it can be used. Fft_C.dll is an API that can be used for fast Fourier transform, and calculates a frequency spectrum.

[音声取得から音声感情分析全体フロー]
図4は、音声取得から音声感情分析までの処理の流れを示すフローチャートである。図4に示すように、ステップS41でマイクから音声を取得し、ステップS42でA/D変換をし、ステップS43で離散フーリエ変換をし、ステップS44で音声特徴量を算出し、ステップS45で感情を計測し、ステップS46で感情を出力する。ステップS41、ステップS42で音声を取得し、ステップS43〜46で音声感情を分析する。
[Overall flow of voice emotion analysis from voice acquisition]
FIG. 4 is a flowchart showing a flow of processing from voice acquisition to voice emotion analysis. As shown in FIG. 4, voice is acquired from the microphone in step S41, A / D conversion is performed in step S42, discrete Fourier transform is performed in step S43, voice feature values are calculated in step S44, and emotion is calculated in step S45. Is measured, and emotion is output in step S46. Voices are acquired in steps S41 and S42, and voice emotions are analyzed in steps S43 to S46.

A/D変換(アナログ/ディジタル変換)は、アナログ信号である音声波形を標本化及び量子化を行ってデジタルデータに変換する。例えばサンプリングレート16KHz、分解能16ビットとする。   In A / D conversion (analog / digital conversion), a speech waveform which is an analog signal is sampled and quantized and converted into digital data. For example, the sampling rate is 16 KHz and the resolution is 16 bits.

ステップS44では、音声特徴量を算出する。音声特徴量とは、各バッファ(分析フレーム)についてパワーを求めて得た音声波形全体の軌跡(パワー軌跡)及び各バッファ(分析フレーム)についてピッチを求めて得た音声波形全体の軌跡(ピッチ軌跡)を言う。パワーは、周波数スペクトルの各周波数成分の自乗和を意味する。ピッチは、声の高さ(単位:Hz(ヘルツ))を意味する。   In step S44, an audio feature amount is calculated. The voice feature amount is a trajectory (power trajectory) of the entire speech waveform obtained by obtaining power for each buffer (analysis frame) and a trajectory (pitch trajectory) of the entire speech waveform obtained by obtaining pitch for each buffer (analysis frame). ) Power means the sum of squares of each frequency component of the frequency spectrum. The pitch means the pitch of the voice (unit: Hz (Hertz)).

ステップS45では、音声特徴量の統計量から例えば「興奮度」、「悲しみ度」、「わくわく度」、「まったり度」をそれぞれ0.0から1.0まで0.1刻み11段階で0.128秒ごとにリアルタイムに計測する。そして、5回の計測で最頻の感情を「現在の感情」と判定する。「音声特徴量の統計量」とは、例えば直前5秒間のパワー軌跡についての平均、標準偏差及び直前1秒間のパワー軌跡及びピッチ軌跡の平均、標準偏差を言う。平均は、相加平均(算術平均)を意味する。   In step S45, for example, “excitement degree”, “sadness degree”, “excitement degree”, and “degree of chilliness” are measured in real time every 0.128 seconds in 11 steps from 0.0 to 1.0 from the statistics of the voice feature quantity. . Then, the most frequent emotion is determined as the “current emotion” by five measurements. The “statistics of voice feature amount” refers to, for example, the average and standard deviation of the power locus for the last 5 seconds and the average and standard deviation of the power locus and pitch locus for the immediately preceding 1 second. Average means arithmetic mean (arithmetic mean).

[音声特徴量算出フロー]
図5は、音声特徴量算出処理の流れを示すフローチャートである。図5は、図4のステップS44を詳しく説明するものである。図5に示すように、ステップS51で自乗和を算出し、ステップS52でパワーの5秒間の平均・標準偏差及び1秒間の平均・標準偏差を算出する。
[Audio feature calculation flow]
FIG. 5 is a flowchart showing the flow of the voice feature amount calculation process. FIG. 5 explains step S44 of FIG. 4 in detail. As shown in FIG. 5, the sum of squares is calculated in step S51, and the average / standard deviation for 5 seconds and the average / standard deviation for 1 second are calculated in step S52.

また、ステップS54で対数変換をし、ステップS55で離散フーリエ変換をし、ステップS56でピークを検出し、ステップS57でピッチの1秒間の平均・標準偏差を算出する。ステップS43及びステップS54からステップS56までをケプストラム分析と言う。   Further, logarithmic transformation is performed in step S54, discrete Fourier transformation is performed in step S55, a peak is detected in step S56, and an average / standard deviation for one second of the pitch is calculated in step S57. Steps S43 and S54 to S56 are referred to as cepstrum analysis.

[不特定の話者への対応]
音声の話者による違い(話者性)を「話し方の定常状態における抑揚の統計量」と定義する。入力音声の短時間平均パワーを5秒間監視し、その基本統計量(平均及び標準偏差)をもって話者性と同定する。同定した話者性を基準に感情認識を行うことにより、話者の声の大きさの違いを吸収する。短時間平均パワーは音声の音量に相当し、2048サンプルの分析フレーム(16KHzサンプリングで0.128秒)のフーリエスペクトルの自乗和を計算する。
[Response to unspecified speakers]
The difference between speakers of speech (speaker property) is defined as “statistic of inflection in steady state of speech”. The short-time average power of the input speech is monitored for 5 seconds, and the basic statistic (average and standard deviation) is identified as speaker characteristics. By recognizing emotions based on the identified speaker characteristics, differences in speaker's voice volume are absorbed. The short-time average power corresponds to the sound volume, and the square sum of the Fourier spectrum of 2048 sample analysis frames (16 KHz sampling 0.128 seconds) is calculated.

[不特定の音声環境への対応]
音声の環境による違いを「背景雑音のパワーの基本統計量」と定義する。感情識別ソフトウェア起動時に、ユーザが発話しない状態で、自動的に入力音声の短時間平均パワーを5秒間監視し、その基本統計量をもって音声環境と同定する。同定した音声環境を基準に感情認識を行うことにより、周囲のノイズを感情による音声の抑揚と誤認識することを回避する。音声環境の同定は,手動でいつでも行える。
[Response to unspecified audio environment]
The difference depending on the voice environment is defined as “basic statistic of power of background noise”. When the emotion identification software is activated, the short-time average power of the input voice is automatically monitored for 5 seconds in a state where the user does not speak, and the voice environment is identified with the basic statistics. By recognizing emotion based on the identified voice environment, it is possible to avoid misrecognizing ambient noise as voice inflection due to emotion. The voice environment can be identified manually at any time.

[不特定の発話内容への対応]
発話内容による違いを「音声の短時間変動」と定義し、長時間では互いに相殺されてその違いが無くなると仮定する。分析フレームごとに感情認識を行う代わりに、過去1秒間の特徴量の基本統計量で行う。特徴量は短時間平均パワー(音量)を用いる。「悲しみ度」及び「わくわく度」については,有声区間についてピッチ(音高)を同時に用いる。過去5秒間から同定される音声環境の基本統計量との比較によって感情認識を行う。
[Response to unspecified utterance contents]
The difference depending on the utterance content is defined as “short-term fluctuation of speech”, and it is assumed that the difference is canceled out for a long time and the difference disappears. Instead of performing emotion recognition for each analysis frame, the basic statistic of the feature amount for the past 1 second is used. The short-term average power (volume) is used as the feature amount. For “sadness” and “excitement”, the pitch (pitch) is used simultaneously for the voiced interval. Emotion recognition is performed by comparison with the basic statistics of the voice environment identified from the past 5 seconds.

[処理の観点からのまとめ]
不特定の音声環境に対応するために、感情識別ソフトウェア起動後5秒間の環境を監視する(無発話時)。また、不特定の話者に対応するために、感情識別時から遡って過去5秒間の音声を監視する(発話時)。さらに、不特定の発話内容に対応するために、感情識別時から遡って過去1秒間の音声特徴量(パワー、ピッチ)から計算される基本統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差)と、音声環境の基本統計量とを比較する。
[Summary from the viewpoint of processing]
In order to cope with an unspecified voice environment, the environment is monitored for 5 seconds after the emotion identification software is activated (at the time of no speech). Also, in order to deal with unspecified speakers, the voice for the past 5 seconds is monitored retroactively from the time of emotion identification (at the time of utterance). In addition, in order to deal with unspecified utterance content, basic statistics (power average value and power standard deviation for the last 5 seconds) calculated from voice feature values (power, pitch) for the past 1 second from the time of emotion identification The power average value, power standard deviation, pitch average value, pitch standard deviation for the last one second) are compared with basic statistics of the voice environment.

[音声環境同定の流れ]
感情識別ソフトウェア起動後5秒間における短時間平均パワー(適宜「パワー」と称する。)の軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量を「音声環境の基本統計量」とする。
[Flow of voice environment identification]
The trajectory of short-term average power (referred to as “power” as appropriate) for 5 seconds after the emotion identification software is activated is stored. Then, basic statistics (average and standard deviation) are calculated for the stored power trajectory. The basic statistic is referred to as “basic statistic of voice environment”.

[話者性同定の流れ]
常に過去5秒間における短時間平均パワーの軌跡を保存する。そして、保存したパワー軌跡について、基本統計量(平均及び標準偏差)を算出する。その基本統計量をもって話者性とする。
[Flow of speaker identification]
Always keep track of the short-term average power over the past 5 seconds. Then, basic statistics (average and standard deviation) are calculated for the stored power trajectory. The basic statistics are used as speaker characteristics.

[各感情の認識アルゴリズム]
図6は、興奮度計測処理の流れを示すフローチャートである。興奮度は、声の大きさ(パワー)が大きく保たれると高くなる。
図8は、悲しみ度計測処理の流れを示すフローチャートである。悲しみ度は、声の大きさが大きく保たれると低くなり、声の高さ(ピッチ)が閾値を超えるとより低くなる。すなわち、ぼそぼそと低めの声で話すと、悲しみ度は高くなる。
図9は、わくわく度計測処理の流れを示すフローチャートである。わくわく度は、声の大きさが大きく,声の高さが高いと高くなる。
数6に、まったり度を算出する式を示す。まったり度は、会話に沈黙が増えると高くなる。
[Each emotion recognition algorithm]
FIG. 6 is a flowchart showing a flow of excitement level measurement processing. The degree of excitement increases as the loudness (power) of the voice is kept large.
FIG. 8 is a flowchart showing the flow of sadness degree measurement processing. The degree of sadness becomes lower when the loudness of the voice is kept large, and becomes lower when the pitch (pitch) of the voice exceeds the threshold. In other words, if you speak with a low voice, your sadness will increase.
FIG. 9 is a flowchart showing the flow of the exciting degree measurement process. The degree of excitement increases when the loudness of the voice is high and the pitch of the voice is high.
Equation 6 shows an equation for calculating the degree of relaxation. The degree of relaxation increases as silence in the conversation increases.

[感情計測フロー]
以下で、各感情の計測処理の流れを説明する。なお、音声特徴量をそれぞれ次の記号で表す。
ピッチ:f、
直前1秒間のピッチ平均値:μ1f
直前1秒間のピッチ標準偏差:σ1f
直前1秒間のパワー平均値:μ1p
直前1秒間のパワー標準偏差:σ1p
直前5秒間のパワー平均値:μ5p
直前5秒間のパワー標準偏差:σ5p
[Emotion measurement flow]
Below, the flow of the measurement process of each emotion is demonstrated. In addition, each voice feature is represented by the following symbol.
Pitch: f,
1 second pitch average value: μ 1f
Pitch standard deviation for the last 1 second: σ 1f ,
Power average value for 1 second immediately before: μ 1p
Power standard deviation for the last 1 second: σ 1p ,
Average power for the last 5 seconds: μ 5p
Power standard deviation for the last 5 seconds: σ 5p

[興奮度計測フロー]
図6に、興奮度計測処理の流れを示す。図7に、過去1秒のパワー平均値と興奮度との関係を示す。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれを上回る場合(ステップS61でYES)、興奮度の評価を行うYのパスを通る。下回る場合(ステップS61でNO)、興奮度は0とする。ステップS61でYESの場合、数1によって興奮度を算出する(ステップS62)。
[Excitation level measurement flow]
FIG. 6 shows the flow of excitement level measurement processing. FIG. 7 shows the relationship between the average power value in the past 1 second and the excitement level. The power average value of the past 5 seconds is regarded as environmental noise, and if the power average value of the past 1 second is higher than that (YES in step S61), the Y path for evaluating the degree of excitement is passed. If it falls below (NO in step S61), the excitement level is set to zero. If YES in step S61, the degree of excitement is calculated by equation 1 (step S62).

[悲しみ度計測フロー]
図8に、悲しみ度計測処理の流れを示す。パワーが過去5秒のパワー平均値を上回る場合(ステップS81でYES)、悲しみ度の評価を行うYのパスを通る。ピッチがμfT(例えば、150Hz)以下の場合は(ステップS83でNO)、パワーの評価のみ用い、ピッチがμfTを上回る場合は(ステップS83でYES)、ピッチからの評価を乗ずる。
[Sadness measurement flow]
FIG. 8 shows the flow of sadness degree measurement processing. If the power exceeds the power average value of the past 5 seconds (YES in step S81), the path of Y for evaluating the degree of sadness is passed. If the pitch is μ fT (for example, 150 Hz) or less (NO in step S83), only power evaluation is used. If the pitch exceeds μ fT (YES in step S83), the evaluation from the pitch is multiplied.

つまり、「ステップS81でYES」かつ「ステップS83でNO」の場合は、「数2の算出値」=「悲しみ度」とする(ステップS82)。「ステップS81でYES」かつ「ステップS83でYES」の場合は、「数2の算出値」×「数3の算出値」=「悲しみ度」とする(ステップS85)。数3中のσfTは、例えば100Hzとする。 That is, if “YES in step S81” and “NO in step S83”, “calculated value of Formula 2” = “degree of sadness” is set (step S82). If “YES in step S81” and “YES in step S83”, “calculated value of equation 2” × “calculated value of equation 3” = “degree of sadness” is set (step S85). Σ fT in Equation 3 is, for example, 100 Hz.

[わくわく度計測フロー]
図9に、わくわく度計測処理の流れを示す。過去1秒のピッチ平均値がμfT(例えば、100Hz)を超える場合(ステップS91でYES)、ステップS92で算出した数4の算出値と、ステップS93で算出した数5の算出値との積をわくわく度とする。過去1秒のピッチ平均値がμfT以下の場合はわくわく度=0とする。数4中のσfTは、例えば50Hzとする。
[Exciting measurement flow]
FIG. 9 shows the flow of the excitement degree measurement process. When the pitch average value in the past one second exceeds μ fT (for example, 100 Hz) (YES in step S91), the product of the calculated value of formula 4 calculated in step S92 and the calculated value of formula 5 calculated in step S93. Is the degree of excitement. When the pitch average value in the past 1 second is less than μ fT , the exciting degree is set to 0. Σ fT in Equation 4 is, for example, 50 Hz.

[まったり度計測フロー]
まったり度は、数6によって算出される。過去5秒のパワー平均値を環境雑音と見なし、過去1秒のパワー平均値がそれに一致する場合をまったり度が最大とし、それから離れるに従って指数関数で減少する。
[Degree of measurement flow]
The degree of looseness is calculated by Equation 6. The power average value in the past 5 seconds is regarded as environmental noise, and when the power average value in the past 1 second coincides with it, the degree of clogging is maximized, and decreases with an exponential function as the distance from it is increased.

[感情判定]
過去5フレーム(16KHz,フレーム長2048の場合、0.64秒に相当)の4感情の度合いを保存する。次に、各フレームで度合いが最大の感情について、生起回数を1増やす。そして、過去5フレームで累積回数が最大の感情を現在の感情と決定する。
[Emotion judgment]
The degree of 4 emotions in the past 5 frames (corresponding to 0.64 seconds in the case of 16 KHz and frame length 2048) is stored. Next, the number of occurrences is increased by 1 for the emotion having the maximum degree in each frame. Then, the emotion having the maximum cumulative number in the past five frames is determined as the current emotion.

[感情測定モニターTypeA画面]
図10は、感情測定モニター画面の一例を示す。音声のスペクトルは、緩やかな起伏である包絡に周期的な細かい凹凸である微細構造が重畳した構造を持つ。
[Emotion measurement monitor TypeA screen]
FIG. 10 shows an example of the emotion measurement monitor screen. The spectrum of speech has a structure in which a fine structure that is periodic fine irregularities is superimposed on an envelope that is a gentle undulation.

<ケプストラム>
音声波形のパワースペクトルを対数に変換し、さらにフーリエ変換した結果をケプストラムと呼ぶ。ケプストラムの横軸をケフレンシー軸と呼ぶ。スペクトルの横軸の次元が周波数であるから、これをフーリエ変換して得られるケプストラムの横軸の次元は時間軸である。包絡に相当する成分は低ケフレンシー部に、微細構造に相当する部分は高ケフレンシー部に現れる。前者が声道特性(声色)、後者が声帯音源の特性(ピッチ:声の高さ)に相当する。
<Cepstrum>
The result of converting the power spectrum of the speech waveform to a logarithm and further Fourier transforming is called a cepstrum. The horizontal axis of the cepstrum is called the quefrency axis. Since the dimension of the horizontal axis of the spectrum is the frequency, the horizontal axis dimension of the cepstrum obtained by Fourier transforming this is the time axis. The component corresponding to the envelope appears in the low quefrency portion, and the portion corresponding to the fine structure appears in the high quefrency portion. The former corresponds to the vocal tract characteristics (voice color), and the latter corresponds to the characteristics of the vocal cord sound source (pitch: voice pitch).

閾値によって低ケフレンシー部と高ケフレンシー部に分ける処理をフィルタリングをもじってリフタリングと呼ぶ。リフタリングによって高ケフレンシー部からピークを抽出することによってピッチ周期(声の高さ)を求めることができる。この一連の処理をケプストラム分析と呼ぶ。   The process of dividing the low and high quefrency parts according to the threshold is called liftering through filtering. The pitch period (voice pitch) can be obtained by extracting a peak from the high quefrency portion by liftering. This series of processing is called cepstrum analysis.

[感情測定モニターTypeB画面]
図11は、感情測定モニター画面の他の例を示す。同図に示されているように、音声特徴量の統計量(直前5秒間のパワー平均値、パワー標準偏差。直前1秒間のパワー平均値、パワー標準偏差、ピッチ平均値、ピッチ標準偏差。)を算出し、それら統計量に基づいて「興奮」、「悲しい」、「わくわく」、「まったり」などの各感情の度合いを算出し、感情を判定する。
[Emotion measurement monitor TypeB screen]
FIG. 11 shows another example of the emotion measurement monitor screen. As shown in the figure, the statistic of the voice feature amount (power average value, power standard deviation for the last 5 seconds. Power average value, power standard deviation, pitch average value, pitch standard deviation for the previous 1 second.) Is calculated, and the degree of each emotion such as “excitement”, “sad”, “exciting”, “marvel” is calculated based on these statistics, and the emotion is determined.

[感情の分析結果をデータベースに蓄積]
図12は、感情の分析結果をデータベースに蓄積するまでの流れを示す。同図に示すように、ステップS131で、感情分析結果と音声特徴量を取得する。ステップS132で、インターネット経由でデータベースに接続する。ステップS133で、1秒ごとに感情音声データベース35に特徴量データ26を登録する。ステップS134で、1秒ごとにパーソナルデータベース36に感情分析結果データ25を登録する。
[Accumulating emotion analysis results in database]
FIG. 12 shows a flow until the analysis result of emotion is accumulated in the database. As shown in the figure, the emotion analysis result and the voice feature amount are acquired in step S131. In step S132, the database is connected via the Internet. In step S133, the feature data 26 is registered in the emotion voice database 35 every second. In step S134, the emotion analysis result data 25 is registered in the personal database 36 every second.

[感情分析結果から画面表示の変更]
図13は、感情分析結果から画面表示を変更するまでの流れを示す。同図に示すように、ステップS141で、感情音声分析結果をコンテンツ配信サーバ32に送信する。ステップS142で、コンテンツ配信サーバ32は、パーソナルデータベース36から、感情履歴と広告表示履歴を取得し、その値をもとに広告管理サーバ34から広告データを取得する。ステップS143で、コンテンツ配信サーバ32は、ステップS142で取得した広告表示履歴をもとにコメントデータをコメントサーバ33から取得する。ステップS144で、取得したコメントデータと広告データをPC23の画面に表示させる。
[Change of screen display from emotion analysis results]
FIG. 13 shows a flow from the emotion analysis result to changing the screen display. As shown in the figure, the emotional voice analysis result is transmitted to the content distribution server 32 in step S141. In step S142, the content distribution server 32 acquires the emotion history and the advertisement display history from the personal database 36, and acquires the advertisement data from the advertisement management server 34 based on the values. In step S143, the content distribution server 32 acquires comment data from the comment server 33 based on the advertisement display history acquired in step S142. In step S144, the acquired comment data and advertisement data are displayed on the screen of the PC 23.

ステップS142〜143の広告表示履歴とは、感情履歴をもとにして表示した広告表示の履歴であって、パーソナルデータベース36に蓄積される。例えば、過去1秒間で「悲しみ」の感情結果となった場合に、温泉のバナー広告を表示させる。その表示履歴に基づいて、次回に「悲しみ」の感情結果になった場合には、別の広告を表示させる。表示させるシーケンスについては後述する。   The advertisement display history in steps S142 to S143 is the advertisement display history displayed based on the emotion history, and is stored in the personal database 36. For example, a hot spring banner ad is displayed when the emotional result of “sadness” has been achieved in the past second. Based on the display history, when the emotional result of “sadness” is obtained next time, another advertisement is displayed. The sequence to be displayed will be described later.

ステップS143の感情履歴とは、ステップS134でパーソナルデータベース36に蓄積した利用者毎の感情分析結果データの履歴を言う。例えば、過去1秒間で判断した感情が「興奮」、「悲しみ」、「わくわく」、「まったり」のどの感情であったかのデータ履歴を言う。より具体的には、4秒前から3秒前までは「興奮」、3秒前から2秒前までは「悲しみ」、2秒前から1秒前までは「わくわく」、そして1秒前から現在までは「まったり」などである。   The emotion history in step S143 refers to the history of emotion analysis result data for each user accumulated in the personal database 36 in step S134. For example, it refers to a data history indicating whether the emotion determined in the past one second is “excitement”, “sadness”, “excitement”, or “slowness”. More specifically, “excitement” from 4 seconds to 3 seconds ago, “sadness” from 3 seconds to 2 seconds ago, “excitement” from 2 seconds to 1 second ago, and from 1 second ago Up to now, it is “married”.

[広告表示間隔]
感情別広告は、5秒〜10秒間隔で、ワード別広告は、登録ワードを発話したタイミングで各広告をチェンジさせることが好ましい。
[Ad display interval]
It is preferable that the advertisement classified by emotion is changed every 5 to 10 seconds, and the advertisement classified by word is changed at the timing when the registered word is uttered.

[感情別広告及びコメント表示シーケンス]
図14は、感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、A〜Cテーブルは、パーソナルデータベース36に記憶される。Aテーブルには、パーソナルID及び名前が記憶される。Bテーブルには、パーソナルID、感情履歴時間、及び感情結果が記憶される。Cテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、及び開示時間が記憶される。Dテーブルは、広告管理サーバ34に記憶される。Dテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、及びコメント番号が記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
[Emotion-specific advertisement and comment display sequence]
FIG. 14 shows each table necessary for displaying emotion-specific advertisements and comments and the flow of processing. As shown in the figure, the A to C tables are stored in the personal database 36. A personal ID and a name are memorize | stored in A table. In the B table, personal ID, emotion history time, and emotion result are stored. In the C table, a personal ID, a display time, an advertisement number, a previous display advertisement, a comment, and a disclosure time are stored. The D table is stored in the advertisement management server 34. The D table stores an advertisement number, advertisement data (binary data), emotion type, priority, and comment number. In the table of the comment server 33, comment numbers and comments are stored.

感情別広告及びコメントを表示するために必要な処理について説明する。
ステップS1411:1秒毎に感情結果データをパーソナルデータベース36のBテーブルに登録する。図14に示す例では、感情結果「1」は「興奮」、「2」は「悲しい」、「3」は「わくわく」、「4」は「まったり」を示す。
A process necessary for displaying an emotion-specific advertisement and a comment will be described.
Step S1411: Emotion result data is registered in the B table of the personal database 36 every second. In the example shown in FIG. 14, the emotion result “1” indicates “excitement”, “2” indicates “sad”, “3” indicates “exciting”, and “4” indicates “slow”.

ステップS1412:5秒毎にテーブルBの感情結果の中から、もっとも顕著な感情結果を抽出する。図14に示す例では、感情結果「1」が3回出現し、最多出現であるため、「1」が抽出される。出現回数が同じ感情結果が複数存在する場合は、例えば数字が少ない方を抽出する。   Step S1412: The most prominent emotional result is extracted from the emotional results in Table B every 5 seconds. In the example illustrated in FIG. 14, the emotion result “1” appears three times and is the most frequent occurrence, so “1” is extracted. When there are a plurality of emotional results having the same appearance frequency, for example, the one with a smaller number is extracted.

ステップS1413:Bテーブルから抽出された感情を第一要素として持つ広告であって、かつCテーブルに記憶されている直前表示広告の中から第二要素がもっとも高い値を取得する。図14に示す例では、この時点においては、1行目のデータ(「直前表示広告」列が「1,1」のレコード)と2行目のデータ(「直前表示広告」列が「1,2」のデータ)のみが記憶されており、3行目のデータ(「直前表示広告」列が「1,3」のデータ)は記憶されていないものとする。このような状況下では、Bテーブルから抽出された感情を第一要素として持ち、かつCテーブルに記憶されている直前表示広告の中の第二要素の最大値は、2行目のデータの「直前表示広告」列の「1,2」の「2」である。   Step S1413: The advertisement having an emotion extracted from the B table as the first element and the second element having the highest value among the immediately preceding display advertisements stored in the C table is acquired. In the example shown in FIG. 14, at this time, the data on the first row (the record “1 and 1” in the “previous display advertisement” column) and the data on the second row (the “display advertisement immediately before” column) are “1,”. 2 ”) is stored, and the data in the third row (the“ previous display advertisement ”column is“ 1,3 ”data) is not stored. Under such circumstances, the maximum value of the second element in the immediately preceding display advertisement having the emotion extracted from the B table as the first element and stored in the C table is “2” in the data in the second row. “2” in “1, 2” in the “immediate display advertisement” column.

ステップS1414:「ステップS1412で取得した値」と「ステップS1413で取得した値に1をプラスした値」の2つの値から感情種別と優先順位を抽出条件として広告管理サーバ34のDテーブルから行データを絞り込む。図14に示す例では、「感情識別:1、優先順位:3」の行データに絞り込まれる。優先順が最後尾になった場合は、1に戻る。例えば、感情種別1の場合、優先順位は1から3までであるから、優先順位が3になったら、次は優先順位1の行データに絞り込まれる。   Step S1414: The row data from the D table of the advertisement management server 34 using the emotion type and priority as the extraction conditions from the two values “value acquired in step S1412” and “value obtained by adding 1 to the value acquired in step S1413”. Narrow down. In the example illustrated in FIG. 14, the row data is “emotion identification: 1, priority: 3”. If the priority is at the end, return to 1. For example, in the case of emotion type 1, since the priority order is from 1 to 3, when the priority order becomes 3, next, the row data of priority order 1 is narrowed down.

ステップS1415:DテーブルからステップS1414で絞り込んだ行の各列のデータが取得される。   Step S1415: Data of each column in the row narrowed down in step S1414 is acquired from the D table.

ステップS1416:ステップS1415で取得した列データ内のコメント番号(図14に示す例では「eje0019」)をもとにコメントサーバ33からコメントを取得する(図14に示す例では「冬は温泉でしょう!」)。   Step S1416: A comment is acquired from the comment server 33 based on the comment number (“eje0019” in the example shown in FIG. 14) in the column data acquired in Step S1415 (“Winter is a hot spring in the example shown in FIG. 14). !))

ステップS1417:ステップS1415で取得した広告データとステップS1416で取得したコメントデータをCテーブルに登録する。   Step S1417: The advertisement data acquired in step S1415 and the comment data acquired in step S1416 are registered in the C table.

ステップS1418:ステップS1415とステップS1416で取得した各データをコンテンツ配信サーバ32を経由して、PC23のツールに送信する。   Step S1418: Each data acquired in step S1415 and step S1416 is transmitted to the tool of the PC 23 via the content distribution server 32.

ステップS1419:ステップS1418で送信されてきた各データをツールの表示エリアに表示させる。   Step S1419: Each data transmitted in step S1418 is displayed in the display area of the tool.

[ワードスポッティング結果に基づく画面表示の変更]
図15は、ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す。同図に示すように、ステップS151では、ワードスポティング結果をPC23からコンテンツ配信サーバ32に送信する。
[Change of screen display based on word spotting result]
FIG. 15 shows the flow of processing for changing the screen display based on the word spotting result. As shown in the figure, in step S151, the word spotting result is transmitted from the PC 23 to the content distribution server 32.

ステップS152では、コンテンツ配信サーバ32からコメントサーバ33にアクセスし、ワードスポッティング結果に基づいて表示させるコメントデータをコメントサーバ33から取得する。   In step S152, the content distribution server 32 accesses the comment server 33, and acquires comment data to be displayed based on the word spotting result from the comment server 33.

ステップS153では、コンテンツ配信サーバ32から広告管理サーバ34にアクセスし、ワードスポッティング結果に基づいて表示させる広告データを広告管理サーバ34から取得する。   In step S153, the content management server 34 accesses the advertisement management server 34, and acquires advertisement data to be displayed based on the word spotting result from the advertisement management server 34.

ステップS154では、ステップS152で取得したコメントデータとステップS153で取得した広告データをコンテンツ配信サーバ32からPC23に送信し、PC23の画面に表示させる。   In step S154, the comment data acquired in step S152 and the advertisement data acquired in step S153 are transmitted from the content distribution server 32 to the PC 23 and displayed on the screen of the PC 23.

ステップS152の「ワードスポッティング」とは、会話中に発した単語の音声波形と抽出したい単語の音声波形が類似であった場合に、特定の単語が発せられたと判断することが可能な技術である。例えば、「おんせんいきたいね!」と発音された場合に、「おんせん」部分の音声波形を抽出し、「温泉」という単語が発音されたと判断することが可能である。そして、本実施形態においては温泉旅行に関するバナー広告が表示される。   The “word spotting” in step S152 is a technique that can determine that a specific word is emitted when the speech waveform of a word uttered during a conversation and the speech waveform of a word to be extracted are similar. . For example, when “Onsen I want you!” Is pronounced, it is possible to extract the speech waveform of the “Onsen” portion and determine that the word “Onsen” has been pronounced. And in this embodiment, the banner advertisement regarding a hot spring trip is displayed.

[ワード別広告及びコメント表示シーケンス]
図16は、ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す。同図に示すように、Eテーブルは、パーソナルデータベース36に記憶される。Eテーブルには、パーソナルID、表示時間、広告番号、直前表示広告、コメント、開示時間、及びワードIDが記憶される。Fテーブルは、広告管理サーバ34に記憶される。Fテーブルには、広告番号、広告データ(バイナリデータ)、感情種別、優先順位、コメント番号、及びワードIDが記憶される。コメントサーバ33のテーブルには、コメント番号、及びコメントが記憶される。
[Word-based advertisement and comment display sequence]
FIG. 16 shows each table necessary for displaying advertisements and comments by word and the flow of processing. As shown in the figure, the E table is stored in the personal database 36. The E table stores a personal ID, display time, advertisement number, immediately preceding display advertisement, comment, disclosure time, and word ID. The F table is stored in the advertisement management server 34. The F table stores an advertisement number, advertisement data (binary data), emotion type, priority, comment number, and word ID. In the table of the comment server 33, comment numbers and comments are stored.

ワード別広告及びコメントを表示するために必要な処理について説明する。
ステップS1511:ワードスポッティング技術を利用して、会話中の音声波形のデジタルデータとワード音声データ内の「ワード音声波形データ」を比較し、該当波形をモニタリングする。
Processing necessary for displaying the word-by-word advertisement and the comment will be described.
Step S1511: Using the word spotting technique, the digital data of the speech waveform during conversation is compared with the “word speech waveform data” in the word speech data, and the corresponding waveform is monitored.

ステップS1512:該当波形があった場合、その該当波形のワードIDを取得する。   Step S1512: If there is a corresponding waveform, the word ID of the corresponding waveform is acquired.

ステップS1513:ステップS1512で取得したワードIDと同一の行をパーソナルデータベース36のEテーブルから抽出し、その抽出行内の直前表示広告の第二要素がもっとも高い値(図16に示す例では、「1,2」の「2」)を取得する。   Step S1513: The same row as the word ID acquired in Step S1512 is extracted from the E table of the personal database 36, and the second element of the immediately preceding display advertisement in the extracted row has the highest value (in the example shown in FIG. 16, “1 , 2 "" 2 ").

ステップS1514:「ステップS1512で取得した値」、「ステップS1513で取得した値に1をプラスした値」及び「図14のBテーブルから抽出された最も顕著な感情値」の3つの値からワードID、感情種別、優先順位を抽出条件としてFテーブルから行データを絞り込む(図16に示す例では、「感情種別:1、優先順位:3、ワードID:001」の行を抽出)。優先順位が最後尾になった場合は、1に戻る。   Step S1514: Word ID from three values: “value acquired in step S1512”, “value acquired in step S1513 plus 1” and “most prominent emotion value extracted from table B in FIG. 14”. Then, the row data is narrowed down from the F table using the emotion type and priority as extraction conditions (in the example shown in FIG. 16, the row of “emotion type: 1, priority: 3, word ID: 001” is extracted). If the priority is at the end, return to 1.

ステップS1515:ステップS1514で絞り込んだ行の各列データを取得する。   Step S1515: Each column data of the row narrowed down in step S1514 is acquired.

ステップS1516:ステップS1515で取得した列データ内のコメント番号(図16に示す例では「oke5009」)をもとにコメントサーバ33からコメントデータを取得する(図16に示す例では、「声が元気だね!六本木C店のケーキでウキウキ度アップ!」)。   Step S1516: Comment data is acquired from the comment server 33 based on the comment number in the column data acquired in step S1515 (“oke5009” in the example shown in FIG. 16) (in the example shown in FIG. It's exciting with a cake from Roppongi C! ”).

ステップS1517:ステップS1515で取得した広告データとステップS1516で取得したコメントデータをパーソナルデータベース36のEテーブルに登録する。   Step S1517: The advertisement data acquired in step S1515 and the comment data acquired in step S1516 are registered in the E table of the personal database 36.

ステップS1518:ステップS1515とステップS1516で取得した各データをコンテンツ配信サーバ32を経由して、PC23のツールに送信する。   Step S1518: Each data acquired in step S1515 and step S1516 is transmitted to the tool of the PC 23 via the content distribution server 32.

ステップS1519:ステップS1518でコンテンツ配信サーバ32を経由してPC23に送信されてきたデータをツールの表示エリアに表示させる。   Step S1519: The data transmitted to the PC 23 via the content distribution server 32 in step S1518 is displayed in the display area of the tool.

[Webサイトにログイン]
図17は、Webサイトにログインするまでの処理の流れを示す。ステップS211では、音声感情識別ツール又はインターネット閲覧ソフト(IE等)を起動する。ステップS212は、音声感情識別ツールを起動させた場合であって、音声感情識別ツールの表示エリア内に表示されたリンクボタンが押される。以降、システム内動作として、ツール内に保存してある「メンバー名」と「パスワード」を用いて、メンバー認証データベース31において自動認証が行われる。ステップS213は、インターネット閲覧ソフトを起動させた場合であって、インターネット閲覧ソフトによってPC23の画面に表示されるメンバーログインエリアに「メンバー名」と「パスワード」を入力してログインを実行する。ステップS214では、認証が完了し、Webサイト(パーソナルサイト)にログインが完了する。
[Login to website]
FIG. 17 shows the flow of processing until login to the Web site. In step S211, a voice emotion identification tool or Internet browsing software (IE or the like) is activated. Step S212 is a case where the voice emotion identification tool is activated, and the link button displayed in the display area of the voice emotion identification tool is pressed. Thereafter, as an operation in the system, automatic authentication is performed in the member authentication database 31 using “member name” and “password” stored in the tool. Step S213 is a case where the Internet browsing software is started, and the login is executed by inputting “member name” and “password” in the member login area displayed on the screen of the PC 23 by the Internet browsing software. In step S214, authentication is completed and login to the Web site (personal site) is completed.

[ツール利用時に蓄積されたデータ結果をベースとした各種サービスの閲覧]
図18は、ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す。同図に示すように、ステップS221では、サイト運営用Webサーバ37からパーソナルデータベース36にアクセスし、ログインユーザーの感情音声分析結果を取得する。ステップS222では、取得した分析結果から表示すべき広告を広告管理サーバ34から取得する。ステップS223では、取得した分析結果をベースとした各種サービス内容を提供サービスデータベース38から取得する。ステップS224では、取得した各データをhtmlファイルに埋め込みメンバーのPC23又は携帯電話機24に送信する。
[Browse various services based on data results accumulated when using the tool]
FIG. 18 shows the flow of processing for browsing various services based on the data results accumulated when using the tool. As shown in the figure, in step S221, the personal database 36 is accessed from the web server 37 for site operation, and the emotion voice analysis result of the login user is acquired. In step S222, an advertisement to be displayed is acquired from the advertisement management server 34 from the acquired analysis result. In step S223, various service contents based on the acquired analysis result are acquired from the provided service database 38. In step S224, the acquired data is embedded in the html file and transmitted to the member PC 23 or the mobile phone 24.

ステップS222では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベース36から抽出し、その感情に合わせて広告を表示させる。例えば、会話が悲しげな場合に「ハワイ旅行」等の広告を表示させる。「会話中にもっとも顕著だった感情を判断する処理」については後述する。   In step S222, the most prominent emotion during voice acquisition using the tool is extracted from the personal database 36, and an advertisement is displayed in accordance with the emotion. For example, if the conversation is sad, an advertisement such as “Hawaii trip” is displayed. The “process for judging the most prominent emotion during the conversation” will be described later.

ステップS223では、ツールを用いて音声を取得している最中にもっとも顕著だった感情をパーソナルデータベースから抽出し、その感情に合わせてサービスを表示させる。表示されるサービスは、例えば声占い(感情履歴をもとに占いを表示する)、声健康チェック(感情履歴から健康度合いを表示する)、お勧めライフ(感情履歴からお勧めの生活スタイルを表示する)などである。   In step S223, emotions that are most prominent during voice acquisition using the tool are extracted from the personal database, and services are displayed in accordance with the emotions. The displayed services are, for example, voice fortune telling (display fortune telling based on emotion history), voice health check (display health level from emotion history), recommended life (display recommended lifestyle from emotion history) Etc.).

[会話中にもっとも顕著だった感情を判断する処理]
直前表示広告の第一要素の統計から最も多い数値を抽出し、その値から「最も顕著だった感情」を導き出す。また同順だった場合は、数値が小さい方を優先する。
[Process to judge emotions that were most noticeable during conversation]
The most numerical value is extracted from the statistics of the first element of the immediately preceding display advertisement, and “the most prominent emotion” is derived from the value. If the order is the same, priority is given to the smaller number.

図19に、パーソナルデータベース36に記憶されるテーブルCの第2の例を示し、同図を用いて「会話中にもっとも顕著だった感情を判断する処理」を説明する。なお、「直前表示広告の第一要素」とは、図19の例では「直前表示広告」列の各データの第1番目の要素を言う。例えば、「直前表示広告」列の「1,2」中の「1」を言う。図19の例では、「直前表示広告の第一要素」は「1」が6個、「2」が3個であるから、「直前表示広告の第一要素の統計から最も多い数値」は「1」になる。そして、これに対応する感情(例えば、「興奮」)が「最も顕著だった感情」となる。仮に、「直前表示広告の第一要素」が「1」も「2」も同じ個数であったら、数値が小さい方の「1」が「最も顕著だった感情」となる。   FIG. 19 shows a second example of the table C stored in the personal database 36, and the “process for judging the emotion most noticeable during the conversation” will be described with reference to FIG. The “first element of the immediately preceding display advertisement” refers to the first element of each data in the “immediately displayed advertisement” column in the example of FIG. For example, “1” in “1, 2” in the “advance display advertisement” column is referred to. In the example of FIG. 19, since “1” is “6” and “2” is 3 in the “first element of the immediately preceding display advertisement”, “the most numerical value from the statistics of the first element of the immediately preceding display advertisement” is “ 1 ”. The emotion corresponding to this (for example, “excitement”) becomes “the most prominent emotion”. If the “first element of the immediately preceding display advertisement” is the same number of “1” and “2”, the smaller numerical value “1” becomes “the most prominent emotion”.

感情音声識別ツール利用時の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process at the time of emotion voice identification tool utilization. パソコン又は携帯電話でのパーソナルサイト閲覧時の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process at the time of personal site browsing with a personal computer or a mobile telephone. サービス提供システムの全体構成の一例を示すブロック図である。It is a block diagram which shows an example of the whole structure of a service provision system. 音声取得から音声感情分析までの処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process from an audio | voice acquisition to an audio | voice emotion analysis. 音声特徴量算出処理の流れを示すフローチャートである。It is a flowchart which shows the flow of an audio | voice feature-value calculation process. 興奮度計測処理の流れを示すフローチャートである。It is a flowchart which shows the flow of an excitement degree measurement process. 過去1秒のパワー平均値と興奮度との関係を示すグラフである。It is a graph which shows the relationship between the power average value of the past 1 second, and excitement degree. 悲しみ度計測処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a sadness degree measurement process. わくわく度計測処理の流れを示すフローチャートである。It is a flowchart which shows the flow of an exciting degree measurement process. 感情測定モニター画面の一例を示す図である。It is a figure which shows an example of an emotion measurement monitor screen. 感情測定モニター画面の他の例を示す図である。It is a figure which shows the other example of an emotion measurement monitor screen. 感情の分析結果をデータベースに蓄積するまでの流れを示す図である。It is a figure which shows the flow until it accumulate | stores the analysis result of an emotion in a database. 感情分析結果から画面表示を変更するまでの流れを示す図である。It is a figure which shows the flow until it changes a screen display from an emotion analysis result. 感情別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す図である。It is a figure which shows each table required in order to display the advertisement according to emotion, and a comment, and the flow of a process. ワードスポッティング結果に基づいて画面表示を変更する処理の流れを示す図である。It is a figure which shows the flow of the process which changes a screen display based on a word spotting result. ワード別広告及びコメントを表示するために必要な各テーブルと処理の流れを示す図である。It is a figure which shows each table required in order to display the advertisement according to word, and a comment, and the flow of a process. Webサイトにログインするまでの処理の流れを示す図である。It is a figure which shows the flow of a process until it logs in to a Web site. ツール利用時に蓄積されたデータ結果をベースとした各種サービスを閲覧する処理の流れを示す図である。It is a figure which shows the flow of the process which browses the various services based on the data result accumulated at the time of tool utilization. パーソナルデータベース36に記憶されるテーブルCの第2の例を示す図である。It is a figure which shows the 2nd example of the table C memorize | stored in the personal database. 音声感情識別ツールの画面デザインの一例を示す図である。It is a figure which shows an example of the screen design of an audio | voice emotion identification tool.

符号の説明Explanation of symbols

22…マイクロフォン
23…パーソナルコンピュータ
25…分析結果データ
26…特徴量データ
31…メンバー認証データベース
32…コンテンツ配信サーバ
33…コメントサーバ
34…広告管理サーバ
35…感情音声データベース
36…パーソナルデータベース
37…サイト運営用Webサーバ
38…提供サービスデータベース
22 ... Microphone 23 ... Personal computer 25 ... Analysis result data 26 ... Feature data 31 ... Member authentication database 32 ... Content distribution server 33 ... Comment server 34 ... Advertisement management server 35 ... Emotion voice database 36 ... Personal database 37 ... For site management Web server 38 ... provided service database

Claims (9)

単語とコンテンツを関連付けて記憶する手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。
Means for associating and storing words and content;
Word extraction means for extracting words from conversational speech;
Content reading means for reading the content stored in association with the word extracted by the word extracting means;
A content providing system comprising: content transmitting means for sending the read content to content reproducing means.
前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
1つの単語に対して複数のコンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記単語抽出手段によって抽出された単語に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項1に記載のコンテンツ提供システム。
Means for storing a history of contents transmitted by the contents transmitting means;
A plurality of contents are stored with priority for one word,
The content reading unit refers to a history of the transmitted content from among the plurality of contents stored in association with the word extracted by the word extracting unit, and next to the content transmitted most recently. The content providing system according to claim 1, wherein content having a high priority is read.
感情種別とコンテンツを関連付けて記憶する感情種別コンテンツ記憶手段と、
音声入力手段から入力された音声の特徴量を算出する特徴量算出手段と、
算出された音声特徴量に基づいて、感情種別を判定する感情種別判定手段と、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取るコンテンツ読み取り手段と、
読み取られたコンテンツをコンテンツ再生手段へ送る送信手段と、を備えるコンテンツ提供システム。
Emotion type content storage means for storing the emotion type and the content in association with each other;
Feature quantity calculating means for calculating the feature quantity of the voice input from the voice input means;
Emotion type determination means for determining an emotion type based on the calculated audio feature amount;
Content reading means for reading the content stored in association with the determined emotion type;
A content providing system comprising: transmission means for sending the read content to content reproduction means.
前記感情種別判定手段によって判定された感情種別を第1の所定時間毎に記憶する手段と、
第1の所定時間毎に記憶された感情種別の中から第2の所定時間毎に1つの感情種別を抽出する感情種別抽出手段と、をさらに備え、
前記コンテンツ読み取り手段は、前記感情種別抽出手段によって抽出された感情種別に関連付けて記憶されているコンテンツを前記感情種別コンテンツ記憶手段から読み取る請求項1に記載のコンテンツ提供システム。
Means for storing the emotion type determined by the emotion type determination means for each first predetermined time;
Emotion type extraction means for extracting one emotion type for every second predetermined time from the emotion types stored for each first predetermined time;
The content providing system according to claim 1, wherein the content reading unit reads content stored in association with the emotion type extracted by the emotion type extraction unit from the emotion type content storage unit.
前記コンテンツ送信手段によって送信されたコンテンツの履歴を記憶する手段をさらに備え、
1つの前記感情種別に対して複数の前記コンテンツが優先順位付きで記憶され、
前記コンテンツ読み取り手段は、前記感情種別判定手段によって判定された前記感情種別に関連付けて記憶されている前記複数のコンテンツの中から、前記送信されたコンテンツの履歴を参照して、直近に送信されたコンテンツの次に優先順位が高いコンテンツを読み取る請求項4に記載のコンテンツ提供システム。
Means for storing a history of contents transmitted by the contents transmitting means;
A plurality of the contents are stored with priority for one emotion type,
The content reading unit refers to a history of the transmitted content and is transmitted most recently from the plurality of contents stored in association with the emotion type determined by the emotion type determination unit. The content providing system according to claim 4, wherein content having the next highest priority is read from the content.
前記音声の特徴量が、音声のパワーの平均及び標準偏差、並びに音声のピッチの平均及び標準偏差である請求項3乃至5に記載のコンテンツ配信システム。   The content distribution system according to any one of claims 3 to 5, wherein the audio feature amount is an average and standard deviation of audio power and an average and standard deviation of audio pitch. 感情種別に関連付けられた広告、単語に関連付けられた広告、及び感情種別と単語の双方に関連付けられたコメントをそれぞれ記憶する手段と、
入力された音声に基づいて、感情種別を判定する感情種別判定手段と、
会話音声の中から単語を抽出する単語抽出手段と、
前記感情種別判定手段によって判定された感情種別に関連付けて記憶されている広告を読み出し、前記単語抽出手段によって抽出された単語に関連付けて記憶されている広告を読み出し、かつ前記感情種別判定手段によって判定された感情種別及び前記単語抽出手段によって抽出された単語に関連付けて記憶されているコメントを読み取る広告コメント読み取り手段と、
前記読み取られた広告及びコメントをコンテンツ再生手段へ送るコンテンツ送信手段と、を備えるコンテンツ提供システム。
Means for respectively storing advertisements associated with emotion types, advertisements associated with words, and comments associated with both emotion types and words;
Emotion type determination means for determining an emotion type based on the input voice;
Word extraction means for extracting words from conversational speech;
The advertisement stored in association with the emotion type determined by the emotion type determination unit is read, the advertisement stored in association with the word extracted by the word extraction unit is read, and the determination by the emotion type determination unit An advertisement comment reading means for reading a comment stored in association with the extracted emotion type and the word extracted by the word extraction means;
A content providing system comprising: content transmitting means for sending the read advertisement and comment to content reproducing means.
音声波形とコンテンツを関連付けて予め記憶し、
記憶されている音声波形と音声入力手段から入力された音声の波形とを比較し、類似するか否かを判断し、
入力された音声の波形に類似すると判断された前記音声波形に関連付けて記憶されている前記コンテンツを読み取り、
前記読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。
Pre-store the audio waveform and content in association with each other,
Compare the stored speech waveform with the speech waveform input from the speech input means, determine whether they are similar,
Reading the content stored in association with the speech waveform determined to be similar to the input speech waveform;
A content providing method for sending the read content to a content reproduction means.
感情種別とコンテンツを関連付けて予め記憶し、
音声入力手段から入力された音声の特徴量を算出し、
算出された音声特徴量に基づいて、感情種別を判定し、
判定された前記感情種別に関連付けて記憶されている前記コンテンツを読み取り、
読み取られたコンテンツをコンテンツ再生手段へ送るコンテンツ提供方法。
Associating emotion types with content in advance,
Calculate the feature value of the voice input from the voice input means,
Based on the calculated voice feature, determine the emotion type,
Read the content stored in association with the determined emotion type,
A content providing method for sending read content to a content reproduction means.
JP2007005155A 2007-01-12 2007-01-12 Content provision system and method Pending JP2008170820A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007005155A JP2008170820A (en) 2007-01-12 2007-01-12 Content provision system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007005155A JP2008170820A (en) 2007-01-12 2007-01-12 Content provision system and method

Publications (1)

Publication Number Publication Date
JP2008170820A true JP2008170820A (en) 2008-07-24

Family

ID=39698948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007005155A Pending JP2008170820A (en) 2007-01-12 2007-01-12 Content provision system and method

Country Status (1)

Country Link
JP (1) JP2008170820A (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170622A (en) * 2010-02-18 2011-09-01 Nec Corp Content providing system, content providing method, and content providing program
WO2012174399A3 (en) * 2011-06-17 2013-04-18 Microsoft Corporation Selection of advertisements via viewer feedback
JP2013109767A (en) * 2011-11-23 2013-06-06 Inst For Information Industry Advertisement system and advertisement method
JP2013206389A (en) * 2012-03-29 2013-10-07 Fujitsu Ltd Intimacy calculation method, intimacy calculation program and intimacy calculation device
JP2014119879A (en) * 2012-12-14 2014-06-30 Nippon Hoso Kyokai <Nhk> Face expression evaluation result smoothing device and face expression evaluation result smoothing program
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
WO2015127361A1 (en) * 2014-02-23 2015-08-27 Interdigital Patent Holdings, Inc. Cognitive and affective human machine interface
JP2016024631A (en) * 2014-07-18 2016-02-08 ヤフー株式会社 Presentation device, presentation method, and presentation program
JP2016177442A (en) * 2015-03-19 2016-10-06 ヤフー株式会社 Information processing device and method
JP2017037658A (en) * 2009-02-20 2017-02-16 ボイスボックス テクノロジーズ コーポレーション System and method for processing multi-modal device interaction in natural language voice service environment
JP2018085120A (en) * 2017-12-14 2018-05-31 ヤフー株式会社 Device, method and program
JP2018142357A (en) * 2018-04-27 2018-09-13 ヤフー株式会社 Device, method, and program
CN111611330A (en) * 2019-02-26 2020-09-01 丰田自动车株式会社 Information processing system, program, and control method

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017037658A (en) * 2009-02-20 2017-02-16 ボイスボックス テクノロジーズ コーポレーション System and method for processing multi-modal device interaction in natural language voice service environment
US10553213B2 (en) 2009-02-20 2020-02-04 Oracle International Corporation System and method for processing multi-modal device interactions in a natural language voice services environment
JP2011170622A (en) * 2010-02-18 2011-09-01 Nec Corp Content providing system, content providing method, and content providing program
WO2012174399A3 (en) * 2011-06-17 2013-04-18 Microsoft Corporation Selection of advertisements via viewer feedback
US9077458B2 (en) 2011-06-17 2015-07-07 Microsoft Technology Licensing, Llc Selection of advertisements via viewer feedback
US9363546B2 (en) 2011-06-17 2016-06-07 Microsoft Technology Licensing, Llc Selection of advertisements via viewer feedback
US9020820B2 (en) 2011-06-30 2015-04-28 Fujitsu Limited State detecting apparatus, communication apparatus, and storage medium storing state detecting program
JP2013109767A (en) * 2011-11-23 2013-06-06 Inst For Information Industry Advertisement system and advertisement method
JP2013206389A (en) * 2012-03-29 2013-10-07 Fujitsu Ltd Intimacy calculation method, intimacy calculation program and intimacy calculation device
JP2014119879A (en) * 2012-12-14 2014-06-30 Nippon Hoso Kyokai <Nhk> Face expression evaluation result smoothing device and face expression evaluation result smoothing program
WO2015127361A1 (en) * 2014-02-23 2015-08-27 Interdigital Patent Holdings, Inc. Cognitive and affective human machine interface
JP2016024631A (en) * 2014-07-18 2016-02-08 ヤフー株式会社 Presentation device, presentation method, and presentation program
JP2016177442A (en) * 2015-03-19 2016-10-06 ヤフー株式会社 Information processing device and method
JP2018085120A (en) * 2017-12-14 2018-05-31 ヤフー株式会社 Device, method and program
JP2018142357A (en) * 2018-04-27 2018-09-13 ヤフー株式会社 Device, method, and program
CN111611330A (en) * 2019-02-26 2020-09-01 丰田自动车株式会社 Information processing system, program, and control method
JP2020140238A (en) * 2019-02-26 2020-09-03 トヨタ自動車株式会社 Information processing system, program and control method
JP7183864B2 (en) 2019-02-26 2022-12-06 トヨタ自動車株式会社 Information processing system, program, and control method
CN111611330B (en) * 2019-02-26 2023-09-26 丰田自动车株式会社 Information processing system, program, and control method

Similar Documents

Publication Publication Date Title
JP2008170820A (en) Content provision system and method
KR102237539B1 (en) System and method for determining demendia and congnitive ability using voice conversation analysis
US8983836B2 (en) Captioning using socially derived acoustic profiles
KR102196400B1 (en) Determining hotword suitability
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US10770062B2 (en) Adjusting a ranking of information content of a software application based on feedback from a user
US10210867B1 (en) Adjusting user experience based on paralinguistic information
US20190370283A1 (en) Systems and methods for consolidating recorded content
US20090326947A1 (en) System and method for spoken topic or criterion recognition in digital media and contextual advertising
Wang et al. Automatic prediction of intelligible speaking rate for individuals with ALS from speech acoustic and articulatory samples
US11450306B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
US11354754B2 (en) Generating self-support metrics based on paralinguistic information
WO2020077825A1 (en) Forum/community application management method, apparatus and device, as well as readable storage medium
JP2023507889A (en) Emotion detection in audio interactions
EP4178135A1 (en) Method for generating target video, apparatus, server, and medium
Baumeister et al. The influence of alcoholic intoxication on the fundamental frequency of female and male speakers
WO2019107170A1 (en) Urgency estimation device, urgency estimation method, and program
WO2016179921A1 (en) Method, apparatus and device for processing audio popularization information, and non-volatile computer storage medium
Vacher et al. Speech and sound use in a remote monitoring system for health care
Toivanen et al. Emotions in [a]: a perceptual and acoustic study
Baghdasaryan ArmSpeech: Armenian spoken language corpus
JP6347939B2 (en) Utterance key word extraction device, key word extraction system using the device, method and program thereof
KR20200082232A (en) Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same
JP2011170622A (en) Content providing system, content providing method, and content providing program
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method