JP2012159596A - 情報処理装置、情報処理方法、情報処理システム、およびプログラム - Google Patents

情報処理装置、情報処理方法、情報処理システム、およびプログラム Download PDF

Info

Publication number
JP2012159596A
JP2012159596A JP2011017986A JP2011017986A JP2012159596A JP 2012159596 A JP2012159596 A JP 2012159596A JP 2011017986 A JP2011017986 A JP 2011017986A JP 2011017986 A JP2011017986 A JP 2011017986A JP 2012159596 A JP2012159596 A JP 2012159596A
Authority
JP
Japan
Prior art keywords
phrase
voice data
data
information processing
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011017986A
Other languages
English (en)
Other versions
JP5602653B2 (ja
Inventor
Toru Nagano
徹 長野
Masafumi Nishimura
雅史 西村
Takateru Tachibana
隆輝 立花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2011017986A priority Critical patent/JP5602653B2/ja
Priority to CN201210020471.XA priority patent/CN102623011B/zh
Priority to US13/360,905 priority patent/US20120197644A1/en
Priority to US13/591,733 priority patent/US20120316880A1/en
Publication of JP2012159596A publication Critical patent/JP2012159596A/ja
Application granted granted Critical
Publication of JP5602653B2 publication Critical patent/JP5602653B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection

Abstract

【課題】言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供する。
【解決手段】情報処理装置120は、会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別しており、音声データを音響データを使用して音響分析するための音響分析部208と、音声データの前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部212と、音響分析部208が取得した語句の音声データにおける出現頻度を取得する出現頻度取得部210と、出現頻度の高い語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、特徴語句を決定する韻律ばらつき解析部214とを含む。
【選択図】図2

Description

本発明は、音声分析技術に関し、より詳細には、音声データにおける非言語情報やパラ言語情報といった、言語では明示的に認識されない情報を反映する語句を分析するための情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。
製品・サービスに対する顧客の意見・クレーム・問い合わせなどのため、クライアントやユーザなどは、クレーム先や問い合わせ先に電話する場合が多い。企業・団体などの担当者は、クライアントやユーザとの間で電話回線を使用して会話を行い、クレームや問合わせなどに対応する。近年では、発話者間の会話は、音声処理システムにおいて録音され、以後の正確な状況把握や分析のために利用されるようになっている。この様な問合わせの内容については、録音内容をテキストとして書き出すことによっても分析することができる。しかしながら、音声には、書き起こされたテキストには含まれない非言語情報(話者の性別、年齢、悲しみ・怒り・喜びなどの基本感情等)、パラ言語情報(疑い,感心のような心的態度等)が含まれている。
上述したように録音された発話者の音声データから発話者の感情、心的態度に関する情報を的確に抽出できれば、特にコールセンター関連業務のプロセスの改善や、新たなマーケティング活動に反映させることができるものと考えられる。
また、製品・サービス以外にも、電話会議や電話相談など、相手と実際に相対していない環境で、相手がどのような感情にあるのかについて判断することによって、より効果的な提案の提出や、相手の非言語的またはパラ言語的情報に基づいて将来予測による対応を準備しておくなど、ビジネス的な目的以外でも、音声コールを有効利用することが好ましい。
これまで録音された音声データから感情を分析する技術として、国際公開2010/041507号パンフレット(特許文献1)、特開2004−15478号公報(特許文献2)、特開2001−215993号公報(特許文献3)、特開2001−117581号公報(特許文献4)、特開2010−217502号公報(特許文献5)および大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf(非特許文献1)が知られている。
特許文献1は、会話の音声を解析し、特定の場面での会話における特定の状況が生じている可能性のある箇所を自動的に抽出する技術を記載している。
特許文献2は、感情などの非言語的情報の伝達を可能とする音声通信端末装置であって、音声データから取得した文字データを撮像部が取得した通話者の顔画像から自動判別された感情に対応して文字修飾する音声通信端末装置を記載している。
特許文献3は、ユーザの感情の状態によってバリエーションに富んだ対話を行うために、語句の概念情報を抽出し、生理情報入力部で取得した脈拍、画像入力部で取得した表情を使用して感情を推定し、ユーザに出力する出力文を生成する対話処理を記載している。
特許文献4は、感情認識を行うために、集音された入力情報に対して音声認識を行って認識文字列を認識し、概略的な感情種類を判定し、語彙の重複や感嘆詞のなどの検出の結果を組み合わせて詳細な感情の種類を判定する感情認識装置を記載している。
さらに特許文献5では、発話音声に含まれる韻律に関する情報と音質に関する情報とから発話意図を検出するために、発話音声中の感動詞についての発話意図を抽出する発話意図を検出する装置を記載している。また、非特許文献1は、音声の韻律的特徴を感情表現と結びつけるための定式化・モデル化を開示している。
特許文献1〜特許文献5および非特許文献1は、音声データから感情を推定する技術について記載するものである。特許文献1〜5および非特許文献1に記載された技術は、テキストまたは音声のいずれかまたは両方を使用して感情を推定することを課題とするものであり、言語・音響情報を併用して、当該音声データにおける感情を代表する語句や対象部位を自動検出することを課題とするものではない。
国際公開第2010/041507号パンフレット 特開2004−15478号公報 特開2001−215993号公報 特開2001−117581号公報 特開2010−217502号公報
大野他、「韻律的特徴の総合的なモデル化と、感情の表現・伝達過程」、URIアドレス:http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf
上述したように、これまで音声データに含まれる語句が有する非言語情報やパラ言語情報を推定する技術は各種知られているが、非言語情報やパラ言語情報を推定するため、生理情報や表情と言った言語情報以外の情報を併用するか、または予め設定された語句についての韻律情報を非言語情報やパラ言語情報に関連付けて登録しておき、登録された特定の単語に関する感情などを推定するものであった。
非言語情報やパラ言語情報を取得するために生理情報や表情を利用するのではシステムが複雑となることや、生理情報や表情を取得するための音声データ以外の情報を取得するための装置が必要となるという不都合がある。また予め語句を設定しておき、その韻律情報などを解析して非言語情報やパラ言語情報と対応付けるにしても、発話者が設定した語句を発するとは限らないし、発話者特有の言い回しや単語がある場合もある。また感情表現に使用される単語がすべての会話で共通しているとも限らない。
加えて録音された音声データは、通常有限の時間長を有しており、当該時間長の間で時間区分毎に同一のコンテキストの会話が行われているとは限らないので、有限の時間長の音声データのうちの何処の部分が、どのような非言語情報やパラ言語情報を伴っているかについては、会話の内容や時間的推移によっても異なる。このため、予め特定の語句を定めておくのではなく、音声データの直接的な解析により、音声データ全体を意味付ける非言語情報やパラ言語情報を特徴付ける語句や、特定の時間区分を代表する非言語情報やパラ言語情報を特徴付ける語句を取得して、特定の時間長に渡る音声データを索引付けることは、音声データの解析範囲を減少させ、この結果音声データの特定領域の効率的な検索を可能とすることが可能となると考えられる。
すなわち、本発明は、時間長を持って記録される音声データの感情・心理など、言語的には明示的に表現されない、非言語情報やパラ言語情報が反映された語句を音声データ中で推定することを可能とする、情報処理装置、情報処理方法、情報処理システム、およびプログラムを提供することを目的とする。
本発明は、上述した従来技術の課題に鑑みてなされたものであり、会話など人間の会話による音声データから発話者の感情・心理的態度などの言語的には明示的に表現されない情報を伴う語句を、音声データの韻律特徴量を使用して解析することによって、解析対象の音声データから、当該会話における話者の非言語情報またはパラ言語情報を特徴付ける特徴語句として抽出する。
本発明は特定の時間長を有する音声データに含まれる音声スペクトラムにおけるポーズでセグメント化された音声領域を音響分析して、語句やフレーズの時間的長さ、基本周波数、大きさ、ケプストラムなどの特徴量とする。当該特徴量の音声データにわたった変動の大きさをばらつき度として定義し、特定の実施態様では、ばらつき度がもっとも大きい語句を特徴語句として決定する。他の実施態様では、ばらつき度の大きなものから複数の語句を特徴語句として決定することができる。
決定された特徴語句は、音声データ中の、特徴語句に伴われる非言語情報またはパラ言語情報に影響を与えた領域を索引付けするために使用することができる。
本発明の感情分析を行うための情報処理システム100の実施形態を示す図。 本発明の情報処理装置120の機能ブロックを示す図。 本発明の特徴語を決定するための情報処理方法の概略的なフローチャート。 図3で説明した処理の、ステップS303で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図。 本実施形態のステップS304、ステップS305、およびステップS309で生成される各種リストの実施形態を示す図。 本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する図。 本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者に心理的な影響を与えた対象話題を識別する処理の概略的なフローチャート。 ばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフ図。 実施例2で使用した音声データを、語句「ええ」および語句「へえ」で時間的に索引付けした結果を示す図。 図9で示した矩形枠880の領域を拡大して示した図。
以下、本発明を図面に示した実施形態を参照して説明するが、本発明は後述する実施形態に限定して解釈されるものではない。図1は、本発明の感情分析を行うための情報処理システム100の実施形態を示す。図1に示す情報処理システム100は、発呼者が公衆電話網またはIP電話網102に接続された固定電話器104や携帯電話106を介して、電話の相手先となる企業・団体に電話をかけて会話を行う。なお、図1に示す実施形態では電話交換器は省略して示している。発呼者(Caller)110は、固定電話器104から企業・団体に電話をかけると、企業・団体では、発呼者110に応答する業務を行う担当者(Agent)112が発呼者からの電話に対応し、担当者112の固定電話器104に接続されたパーソナルコンピュータなどが発呼者110と担当者112との間で形成される会話を録音し、サーバといった情報処理装置120に音声データを送付する。
情報処理装置120は、受信した音声データを発呼者110、担当者112の発話領域が識別可能となるようにして、データベース122などに蓄積し、以後の解析のために利用可能としている。情報処理装置120は、例えば、PENTIUM(登録商標)シリーズ、PENTIUM(登録商標)互換チップ、OPETRON(登録商標)、XEON(登録商標)などのCISCアーキテクチャのマイクロプロセッサ、または、POWERPC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを、シングルコアまたはマルチコアの形態で実装することができる。また、情報処理装置は、WINDOWS(登録商標)シリーズ、UNIX(登録商標)、LINUX(登録商標)などのオペレーティング・システムにより制御されていて、C、C++、Java(登録商標)、JavaBeans(登録商標)、Perl、Ruby、Pythonなどのプログラミング言語を使用して実装されるプログラムを実行し、音声データを解析している。
なお、図1では、情報処理装置120が音声データを蓄積し、解析するものとして説明するが、本発明の他の実施形態では、音声データを蓄積する情報処理装置120の他に音声データを分析するための分離した情報処理装置(図示せず)を利用して音響分析を行うことができる。音響分析を分離した情報処理装置を使用して行う場合、情報処理装置120は、ウェブ・サーバなどとして実装することもできる。なお分散処理形式としてはいわゆるクラウド・コンピューティング基盤を採用しても良い。
発呼者110と担当者112との間の会話を録音した音声データ124は、データベース122に音声データを識別するための索引情報、例えば日時、担当者などと紐付けられ、発呼者110の音声データと、担当者112の音声データとが時間的に一致するようにして記録することができる。音声データは、図1では、例えば、「…もらってた」、「はい」、「ええ」などの音声の音声スペクトラムとして例示されている。
本発明は、会話を特徴付けるために、特定の語句、フレーズを、その前後におけるポーズ、すなわち無声区間の存在を用いて識別し、感情分析を行うための語句を抽出するものである。本発明におけるポーズは、音声データ124の矩形領域400で示されるように音声スペクトラムの両側にある一定の区間有意の音声が記録されていない区間として定義でき、ポーズ区間についてはより詳細に後述する。
図2は、本発明の情報処理装置120の機能ブロック200を示す。情報処理装置120は、ネットワーク202を介して発呼者110と、担当者112との間で交わされる会話を音声データ(音声スペクトラム)として取得し、ネットワーク・アダプタ204を介して音声データ取得部206に渡す。音声データ取得部206は、取得した音声データを、当該音声データ自体を索引付けるための索引データと共に、入出力インタフェース216を介してデータベース122に登録し、以後の処理に利用可能とする。
音響分析部208は、データベース122から音声データの音声スペクトラムを読み出し、音声スペクトラムに対し特徴量抽出を行い音声スペクトラムで検出される音声データについて、MFCC(メル周波数ケプストラム係数)および基本周波数f0を取得し、当該音声スペクトラムに対応する語句を割り当て、音声データをテキスト情報に変換するなどの処理を実行する。なお、生成されたテキスト情報は、以後の解析のために解析した音声データに対応付けてデータベース122に登録することができる。この目的のため、データベース122は、日本語、英語、フランス語、中国語など各言語のモーラの基本周波やMFCCなどの音響分析のために使用するデータを、音響データとして保有しており、情報処理装置120による取得した音声データからの自動テキスト・データ化を可能としている。なお、特徴量抽出の従来技術については、例えば特開2004−347761号公報などに記載された技術など、いかなる方法でも利用することができる。
さらに情報処理装置120は、出現頻度取得部210と、韻律情報取得部212と、韻律ばらつき(fluctuation)解析部214とを含んでいる。韻律情報取得部212は、音響分析部208が取得した音声データから、前後がポーズで分離された同一の語句・フレーズを抽出し、個々の語句・フレーズに対して再度音響分析を適用して注目する語句についての音素継続長(s)、基本周波数(f0)、パワー(p)、MFCC(c)を取得し、語句・フレーズから韻律特徴値を要素とするベクトル・データである韻律情報ベクトルを生成し、語句を特徴付け、語句と韻律情報ベクトルとを対応付けて韻律ばらつき解析部214に渡す。
出現頻度取得部210は、音声データ中に見出されるポーズでセグメント化された語句について、同一の語句・フレーズの出現頻度を、説明する実施形態では出現回数として数値化する。数値化された出現回数は、特徴語句を決定する処理に使用するため、韻律ばらつき解析部214に送付される。なお、メル周波数ケプストラム係数は、ケフィレンシーの次元毎に例えば12次元の係数が得られるが、本実施形態では、例えば特定の次元のMFCCを使用することもできるし、最も大きなMFCCをばらつき度の計算に使用することもできる。
韻律ばらつき解析部214は、特定の実施形態では、出現頻度取得部210からの出現回数および韻律情報取得部212からの同一の語句・フレーズの個々の韻律情報ベクトルを使用して、(1)出現回数が設定した閾値以上の語句・フレーズを識別し、(2)当該識別した語句・フレーズの個々の韻律情報ベクトルの各要素の分散値を計算し、(3)計算された各要素の分散値から音声データが含む出現回数の多い語句・フレーズの韻律のばらつき度を、分散度として数値化し、ばらつき度の大きさを基準として、出現回数の多い語句・フレーズの中から音声データ中の話題を特徴付ける特徴語句を決定する。なお、情報処理装置120は、図2に示すように対象話題識別部218を備えていても良い。
他の実施形態では、対象話題識別部218は、さらに音声データ中での韻律ばらつき解析部214が決定した特徴語句が出現した時間に同期して時間的に先行する発呼者110の発言内容を対象話題として抽出し、当該対象話題のテキスト情報を取得して情報処理装置120の例えばセマンティック分析部(図示せず)において、音声データの内容の分析・評価を可能とすることもできる。なお、いずれの実施形態においても、特徴語句は、担当者112の音声データから音響分析によって取得されるものである。
この他、情報処理装置120は、情報処理装置120の操作制御を可能とするためのディスプレイ装置、キーボード、マウスなどを含む入出力装置を備えており、各種処理の開始や終了の制御を可能とし、またディスプレイ装置上における結果表示を可能とさせている。
図3は、本発明の特徴語を決定するための情報処理方法の概略的なフローチャートを示す。図3の処理は、ステップS300から開始し、ステップS301で、データベースから音声データを読み出し、ステップS302で音声データから発呼者と担当者の発話部分を識別し、担当者の発話部分を分析対象として設定する。ステップS303では音声認識処理を行い、音声認識結果として語句およびフレーズ列を出力する。同時に語句およびフレーズの発話領域と音声スペクトラム領域との対応付けが行われる。ステップS304では、担当者の発話部分で前後が無音(無音)で分離された音声スペクトラム領域を識別し、同一の語句の出現回数をカウントする。
ステップS305では、出現した語句のうち、出現回数の多い語句を抽出して高出現語句リストを作成する。抽出に際しては、出現回数が設定した閾値を超えるものを抽出する処理や、語句を出現回数の大きい順にソートして、例えば上位M番目(Mは、正の整数である。)の語句を抽出する処理を用いることができ、本発明では特に限定されるものではない。ステップS306では、候補リストから語句を抽出し、語句を構成するモーラ“xj”単位で再度音響分析し、韻律情報ベクトルを生成する。ステップS307では、同一の語句について韻律情報ベクトルの要素の分散値を計算し、要素数分の分散値の関数として分散度を計算し、当該分散度を、韻律のばらつき度として使用する。
モーラあたりのばらつき度B{mora}は、本実施形態では、具体的には、下記式(1)を使用して行うことができる。
上記式(1)中、moraは、現在対象としている語句を構成するモーラについてのばらつき度であることを意味するサフィックスであり、サフィックスiは、韻律情報ベクトルのi番目の要素を指定し、σは、i番目の要素の分散値であり、λは、i番目の要素をばらつき度に反映させるための重み係数であり、重み係数は、Σ(λ)=1を満たすように正規化しておくことができる。
また、語句・フレーズ全体のばらつき度Bは、下記式(2)で与えられる。
なお、上記式(2)中、jは、語句・フレーズを構成するモーラxjを指定するサフィックスである。また、本実施形態では、上記式(1)でばらつき度Bを、分散値の線形関数として計算される分散度を与えるものとして説明したが、本発明では、ばらつき度Bを与えるための分散度については、語句の多義性、感嘆詞かどうかなどの語句の属性や抽出するべき話題のコンテキストなどに対応して積和、指数和、線形または非線型多項式などの適切な関数を使用して分散度を計算し、ばらつき度Bの尺度として採用することができるし、分散値については、使用する分布関数に応じた形式で定義することができる。
図3で説明する実施形態では、ステップS308では、ばらつき度が設定した閾値以上か否かを判断し、閾値以上である場合(yes)、ステップS309で現在対象とする語句を特徴語句候補として抽出し、特徴語句リストにエントリする。一方、ステップS308でばらつき度が閾値未満である場合(no)、ステップS311で、高出現語句リストに次の語句があるか否かを検査し、語句がさらにある場合(yes)、ステップS310で高出現語句リストからの語句を選択し、再度ステップS306〜ステップS309の処理を反復する。一方、ステップS311の判断で次の高出現語句リスト中に次の語句が無いと判断された場合(no)処理をステップS312に分岐させ、特徴語句の決定処理を終了する。
図4は、図3で説明した処理の、ステップS303で情報処理装置が実行する音声スペクトラム領域の識別処理の概念図である。なお、図4に示した音声スペクトラムは、図1に示した矩形領域400で示した音声スペクトラム領域を拡大したものである。図4に示した音声スペクトラムは、語句として「はい」および「ええ」を記録した領域であり、音声スペクトラムの左手側は、語句「はい」に対応し、右手側は、語句「ええ」に対応する。図5に示す実施形態では、語句「はい」および「ええ」は、その前後がポーズ(無音)として識別され、本実施形態では、有意な語句であること、すなわちポーズでないことは、発話長のフレーム区間にわたってS/N比を超える音声スペクトラムが継続していることを基準とした。したがって、当該基準に該当しない領域は、本実施形態ではポーズとして識別され、スパイク上のノイズの影響も排除することができる。
図5は、本実施形態のステップS304、ステップS305、およびステップS309で生成される各種リストの実施形態を示す。出現頻度取得部210は、音声スペクトラムを解析している区間中、同一の語句を識別すると、当該語句の出現カウントを積算し、例えばカウント・リスト500を生成する。カウント・リスト500の左側カラムは、識別した語句・フレーズであり、右側カラムに出現回数がN1〜N6などのようにカウントされる。図5のカウント値は、説明の便宜上、N1>N2>N3…>N6の順の大きさであるものとして説明する。
ステップS305では、カウント・リスト500にエントリされた語句を、出願回数の閾値以上のものを抽出するか、または出現回数でソーティングするかして、高出現語句リスト510、520を生成する。なお、高出現語句リスト510は、ソーティングにより生成される実施形態によるものであり、高出現語句リスト520は、閾値以上のものを抽出することにより生成される実施形態によるものである。その後、ステップS309では、ばらつき度Bが設定された値以上であるか、否かによって高出現語句リスト510、520から語句・フレーズを抽出し、ばらつき度B1〜B3を対応付けて特徴語句リスト530を生成する。
なお、特徴語句リスト530では、ばらつき度B1〜B3は、B1>B2>B3の順の大きさであるものとして説明する。本実施形態では、ばらつき度が最も大きな特徴語句「A」だけを使用して対象話題の検出のために使用することが、感情変化を生じさせた対象話題を時間的に索引付けすることができるために好ましい。ただし、より詳細な音声データのコンテキストを分析する目的で、特徴語句リスト530にエントリされた特徴語句を全部使用して音声データを索引付けすることもできる。
図6を参照して、本実施形態で生成する韻律情報ベクトルの実施形態を、例示的に語句「はい」を使用して説明する。語句「はい」は、「は」と、「い」の2モーラから構成されており、本実施形態では韻律情報ベクトルは、モーラ単位で生成される。モーラの音素として促音または長音は、本実施形態では、先行するモーラに附属する音素継続時間の相違として認識される。韻律情報ベクトルの構成要素は、音声スペクトラムから得られる、音素継続長(s)、基本周波数(f0)、パワー(p)およびMFCC(c)とされており、「は」については、モーラ「は」についてのものであることを示すために、サフィックス「ha」が付されて示されている。モーラ「い」についても同様の要素を有する韻律特徴ベクトルが得られる。
本実施形態では、韻律情報ベクトルに含まれるs、f0、p、cが、音声スペクトラムに出現した数の同一語句について分散σ{mora}i(説明する実施形態では1≦i≦4)が計算され、各要素を合計することによって、モーラばらつき度B{mora}が計算され、語句・フレーズを構成するモーラについてのモーラばらつき度を合計することによって、語句のばらつき度が計算される。
本実施形態によれば、担当者といった話者に応じて特徴的な語句を抽出することが可能となり、音声認識の認識結果を含めテキストだけからでは得られない、細かな心的態度の変化を反映した特徴語句を効率的に抽出することができる。このため、音声スペクトラムにおいて話者に心理的影響を与えた対象話題を効率的に索引付けすることが可能となる。
図7は、本発明において決定された特徴語句を音声スペクトラムにおける索引として、話者、すなわち説明している実施形態では担当者に、心理的な影響を与えた対象話題を識別する処理の概略的なフローチャートを示す。図7に示す処理は、ステップS700から開始し、ステップS701で担当者の音声データから最もばらつき度の高い語句の時間を特定する。ステップS702で、当該時間に同期し、時間的に先行する発呼者の音声データの特定の時間領域または話中の領域を対象話題として識別し、ステップS703で対象話題に相当する音声データに対応するテキスト領域を識別するか、またはすでにテキスト化されているテキスト・データから抽出して評価し、ステップS704で処理を終了する。
図7の処理は、本実施形態で得られた特徴語句を、音声データのうち話者に対して心理的影響を与えた部分を索引付けするために利用することを可能とする、また音声データの全領域を検索の対象とすることなく、高速かつ低オーバーヘッドで対象箇所の情報を取得することを可能とすることにより、会話などの音声データからより効率的に非言語情報やパラ言語情報に関連する音声解析を可能とする。また、特定の語句やフレーズについてばらつき度をモーラ単位で数値化することにより、特定の語句やフレーズの韻律変化と、パラ言語情報とを対応付けることが可能となり、例えば電話会談、電話会議など、実際に相対していない遠隔した話者の心理的推移を分析する感情分析方法および装置にも適用することができる。以下、本発明を具体的な実施例をもってより詳細に説明する。
(実施例1)
コンピュータに本実施形態の方法を実行するためのプログラムを実装し、サンプルとして953個の電話回線を通した会話の音声データを使用して、各会話データ毎に特徴語句の解析を行った。会話データは、最長で40分程度のものとした。特徴語句を決定する際に、上記式(1)で、λ=1、λ〜λ=0、すなわち、特徴要素として音素継続長を用い、出現頻度の閾値を10とし、語句・フレーズのばらつき度Bが、B≧6を満たす語句・フレーズを特徴語句として抽出した。なお、音響分析においては、発話長の1フレームを、10msとし、MFCCを計算した。全コールの統計解析により、語句(フレーズ)として、大きい順に、「はい」(26638)、「ええ」(10407)、「うん」(7497)、「そうですね」(2507)として得られた。なお、括弧内の数値は、出現回数を示す。
また、953個の音声データについて、音素継続長の変動が大きい語句(フレーズ)を上位6個抽出した。この結果、ばらつき度の大きい順に、「うん」が122サンプル中でばらつき度が最大となった語であり、「ええ」が81サンプル中でばらつき度が最大となった語であり、「はい」が76サンプル中でばらつき度が最大となった語であり、「ああ」が8サンプルでばらつき度が最大となった語であった。以下ばらつき度が最大になった語を列挙すると、「そうですね」(7サンプル)、「へえ」(3サンプル)となった。以上のことから、本実施形態によって抽出された特徴語句は、音声データに出現した語句(フレーズ)を母集団としたときの統計的出願頻度とは異なる順で語句(フレーズ)を抽出していることが示された。下記表1に実施例1の結果を纏めて示す。
(実施例2)
音声データにおけるばらつき度と特徴語句の関連性を検討するため、実施例1で説明したプログラムを使用して約15分間の音声コールを使用して本発明にしたがって解析し、ばらつき度を計算した。下記表2にその結果を示す。
表2に示すように、実施例2で使用した音声コールでは、出現頻度としては、語句「はい」が最も高い。しかしながら、出現頻度とは独立して、ばらつき度が最大の語句は、「へえ」と言う結果が得られた。特定の非言語情報やパラ言語情報を反映する語句は、話者によっても異なり、実施例2で使用した音声コールを生成した担当者のパーソナリティや対象話題の内容を反映し、使用したサンプル・コールでの結果は、本発明が、音声データ中から特定の語句を設定せずとも、担当者のパーソナリティに対応して最も韻律的にばらついた語句を抽出できていることを示された。
さらに韻律変化の内容を検討するためにばらつき度を計算する際に使用した語句を構成するモーラの音素継続長を、音声データ中で出現した時刻を横軸とし、縦軸にモーラの音素継続長としてプロットしたグラフを図8に示す。図8には、語句および当該語句のばらつき度を併せて記載する。語句「はい」から「へえ」まで、各モーラの継続長積み上げ棒グラフの密度が異なっているのは、出現回数の多寡に対応するものである。また、本実施例で特徴語句として抽出された語句「へえ」については、他の語句と異なり、「へ」、「え」の2モーラのうち、本来「え」の後に長音が追加されることで、長音「ー」に対応する音素が発生していることが理解でき、この追加的に発生する長音の長さが大きく異なることがばらつき度を特徴的に増加させていることがわかった。
実施例2の結果により、本発明の方法が、精度高く特徴語句を抽出できることが示された。
(実施例3)
実施例3では、特徴語句を使用した音声データの索引付けを検討した。図9には、実施例2で使用した音声データで、語句「ええ」および語句「へえ」で担当者の音声データを索引付けし、当該語句に先行する15秒間が発呼者による対象話題であるものとして、発呼者の音声データを抽出した結果を示す。なお、図9の音声データ910が語句「ええ」で時間的索引付けを行ったものであり、音声データ950が、語句「へえ」で時間的索引付けを行った結果である。また、音声データ920、960が発呼者によるものであり、音声データ930、970が担当者によるものである。
図9に示されるように、本発明により抽出された特徴語句である「へえ」を使用して時間的索引付けを行う場合、特徴語句「へえ」が出現頻度が少ないことに応じて、対応する発呼者の音声データの領域が著しく削減できることが解った。例えば特徴語句ではない語句「ええ」を使用して対応する対象話題を抽出する場合、発呼者の音声データ920中の約51.6%の情報を抽出する必要があった。一方、本発明により抽出された特徴語句を使用することにより、発呼者の音声データ960の約13.1%を抽出するだけで全対象話題を抽出することができた。
以上のことから本発明によれば、全音声データから、注目する非言語情報やパラ言語情報に関連する話題を効率的に抽出できることが示された。
図10は、図9で示した矩形枠880の領域を拡大して示した図である。図10に示すように、特徴語句が発語された時刻884と、発話者の話題882の終了とが良好に対応付けられており、本発明により決定された特徴語句は、発呼者の対象とする話題を良好に索引付けることができることがわかった。
以上説明してきたように、本発明は、激しく表出する怒り(例えば、「社長を出せ」といって叫んでいる場合)など、語句上で感情が把握できる様な場合以外に、語句的には明確ではないにもかかわらず、押し殺したような怒り、ちょっとした喜びなど、非言語情報やパラ言語情報を特徴的に反映する特徴語句を、話者の口癖などによらず、話者の心的態度の変化を抽出するに最も効率的と思われる語句(フレーズ)を抽出することが可能な情報処理装置、情報処理方法、情報処理システムおよびプログラムを提供することができる。
本発明よれば、音声データの冗長な全領域検索を行うことなく、時間的に索引付けられた特徴語句を識別し、効率的な会話分析や、相対していない話者の感情あるいは心的態度について効率良く自動分類することも可能とされる。
本発明の上記機能は、C++、Java(登録商標)、Javabeans(登録商標)、Javascript(登録商標)、Perl、Ruby、Pythonなどのオブジェクト指向プログラミング言語、SQLなどの検索専用言語などで記述された装置実行可能なプログラムにより実現でき、装置可読な記録媒体に格納して頒布または伝送して頒布することができる。
100 情報処理システム
102 IP電話網
104 固定電話器
106 携帯電話
110 発呼者
112 担当者
120 情報処理装置
122 データベース
124 音声データ
202 ネットワーク
204 ネットワーク・アダプタ
206 音声データ取得部
208 音響分析部
210 出現頻度取得部
212 韻律情報取得部
214 韻律ばらつき解析部
216 入出力インタフェース
218 対象話題識別部
400 矩形領域
500 カウント・リスト
510 高出現語句リスト
520 高出現語句リスト
530 特徴語句リスト
880 矩形枠

Claims (14)

  1. 会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理装置であって、前記情報処理装置は、
    前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
    前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部と、
    前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部と、
    前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
    出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
    を含む、情報処理装置。
  2. 前記情報処理装置は、さらに前記音声データを話者毎に対象話題を含む音声データおよび特徴語を含む音声データとして識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含む、請求項1に記載の情報処理装置。
  3. 前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の1以上の韻律特徴値で韻律を特徴付ける、請求項1に記載の情報処理装置。
  4. 前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項1に記載の情報処理装置。
  5. 会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するために情報処理装置が実行する情報処理方法であって、前記情報処理方法は、前記情報処理装置が、
    前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースから、前記音声データを抽出し、前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別するステップと、
    識別された前記領域を音響分析して前記識別された領域の語句を識別して当該語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成するステップと、
    前記識別した前記語句の前記音声データにおける出現頻度を取得するステップと、
    出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算するステップと、
    前記ばらつき度を基準として、特徴語句を決定するステップと
    を実行する、情報処理方法。
  6. さらに前記音声データを話者毎に識別するステップと、
    前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別するステップと
    を含む、請求項5に記載の情報処理方法。
  7. 前記語句の1以上の韻律特徴値を生成するステップは、前記語句の1以上の韻律特徴値を、音素継続長、音素のパワー、音素の基本周波数およびメル周波数ケプストラム係数を使用して生成するステップを含む、請求項5に記載の情報処理方法。
  8. 前記特徴語句を決定するステップは、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定するステップを含む、請求項5に記載の情報処理方法。
  9. 会話を記録した音声データから当該音声データにおける言語では明示されない情報を識別する特徴語句を取得するための情報処理方法を、情報処理装置が実行するための装置実行可能なプログラムであって、前記プログラムは、前記情報処理装置を、
    前記会話を記録した音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベース、
    前記音声データを、前記音響データを使用して音響分析し、前記音声データに語句を割り当てるための音響分析部、
    前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句の韻律特徴値を要素とする当該語句の1以上の韻律特徴値を生成する韻律情報取得部、
    前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部、
    出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部
    として機能させる、装置実行可能なプログラム。
  10. 前記情報処理装置を、さらに前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部として機能させる、請求項9に記載のプログラム。
  11. 前記韻律情報取得部は、前記韻律特徴値として、音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含む前記語句の1以上の韻律特徴値で韻律を特徴付ける、請求項9に記載のプログラム。
  12. 前記韻律ばらつき解析部は、前記音声データ中で出現頻度の高い前記語句について前記語句の1以上の韻律特徴値の前記要素の分散を計算し、前記分散の大きさに対応付けて前記特徴語句を決定する、請求項9に記載のプログラム。
  13. 話者の会話を記録した音声データをネットワークを介して取得し、前記音声データにおける言語では明示されない情報を識別する特徴語句取得する情報処理システムであって、前記情報処理システムは、
    公衆電話網またはIP電話網を介して固定電話器を用いて話された音声データを、話者識別可能に前記ネットワークを介して取得する音声データ取得部と、
    前記音声データ取得部が取得した前記音声データと、前記音声データに含まれる音素を語句として認識するための音響データとを記録したデータベースと、
    前記音声データを前記音響データを使用して音響分析するための音響分析部と、
    前記音声データの音声スペクトラムにおいて前後がポーズで分離された領域を識別し、識別された領域の音響分析により前記識別された領域の語句を識別し、当該語句の韻律特徴値として音素継続長、音素のパワー、音素の基本周波数、およびメル周波数ケプストラム係数を含むベクトル・データを生成する韻律情報取得部と、
    前記音響分析部が取得した前記語句の前記音声データにおける出現頻度を取得する出現頻度取得部と、
    出現頻度の高い前記語句の韻律特徴値の前記音声データ中におけるばらつき度を計算し、ばらつき度を基準として、特徴語句を決定する韻律ばらつき解析部と
    を含む、情報処理システム。
  14. さらに、前記音声データを話者毎に識別し、前記音声データで前記特徴語句が出現した時間を特定し、当該特徴語句に同期して先行して記録された音声領域を対象話題として識別する対象話題識別部を含み、前記識別された音声領域に対応するテキスト・データを取得して、前記対象話題の内容を分析・評価する請求項13に記載の情報処理システム。
JP2011017986A 2011-01-31 2011-01-31 情報処理装置、情報処理方法、情報処理システム、およびプログラム Expired - Fee Related JP5602653B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011017986A JP5602653B2 (ja) 2011-01-31 2011-01-31 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN201210020471.XA CN102623011B (zh) 2011-01-31 2012-01-29 信息处理装置、信息处理方法及信息处理系统
US13/360,905 US20120197644A1 (en) 2011-01-31 2012-01-30 Information processing apparatus, information processing method, information processing system, and program
US13/591,733 US20120316880A1 (en) 2011-01-31 2012-08-22 Information processing apparatus, information processing method, information processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011017986A JP5602653B2 (ja) 2011-01-31 2011-01-31 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Publications (2)

Publication Number Publication Date
JP2012159596A true JP2012159596A (ja) 2012-08-23
JP5602653B2 JP5602653B2 (ja) 2014-10-08

Family

ID=46562891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011017986A Expired - Fee Related JP5602653B2 (ja) 2011-01-31 2011-01-31 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Country Status (3)

Country Link
US (2) US20120197644A1 (ja)
JP (1) JP5602653B2 (ja)
CN (1) CN102623011B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015053054A (ja) * 2013-09-06 2015-03-19 イマージョン コーポレーションImmersion Corporation 音声信号に関係付けられる触覚効果を生成するためのシステム及び方法
JP2016062333A (ja) * 2014-09-18 2016-04-25 株式会社日立製作所 検索サーバ、及び検索方法
US10276004B2 (en) 2013-09-06 2019-04-30 Immersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals
CN109885835A (zh) * 2019-02-19 2019-06-14 广东小天才科技有限公司 一种获取用户语料中词语之间的关联关系的方法和系统
US10395488B2 (en) 2013-09-06 2019-08-27 Immersion Corporation Systems and methods for generating haptic effects associated with an envelope in audio signals
US10395490B2 (en) 2013-09-06 2019-08-27 Immersion Corporation Method and system for providing haptic effects based on information complementary to multimedia content

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
KR101990536B1 (ko) 2012-11-02 2019-06-18 삼성전자주식회사 영상 통화 수행 시 사용자들의 관심 정보를 제공하는 정보 제공 방법 및 이를 적용한 전자 장치
CN103903627B (zh) * 2012-12-27 2018-06-19 中兴通讯股份有限公司 一种语音数据的传输方法及装置
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US9747276B2 (en) 2014-11-14 2017-08-29 International Business Machines Corporation Predicting individual or crowd behavior based on graphical text analysis of point recordings of audible expressions
US10275522B1 (en) 2015-06-11 2019-04-30 State Farm Mutual Automobile Insurance Company Speech recognition for providing assistance during customer interaction
US9596349B1 (en) 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
EP3379844A4 (en) * 2015-11-17 2018-11-14 Sony Corporation Information processing device, information processing method, and program
US20180018963A1 (en) * 2016-07-16 2018-01-18 Ron Zass System and method for detecting articulation errors
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
JP7143620B2 (ja) * 2018-04-20 2022-09-29 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN109243438B (zh) * 2018-08-24 2023-09-26 上海擎感智能科技有限公司 一种车主情绪调节方法、系统及存储介质
US10964324B2 (en) * 2019-04-26 2021-03-30 Rovi Guides, Inc. Systems and methods for enabling topic-based verbal interaction with a virtual assistant

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2000075894A (ja) * 1998-09-01 2000-03-14 Ntt Data Corp 音声認識方法及び装置、音声対話システム、記録媒体
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
JP2010273130A (ja) * 2009-05-21 2010-12-02 Ntt Docomo Inc 詐欺進行度判定装置、辞書生成装置、詐欺進行度判定方法及び辞書生成方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
US6480826B2 (en) * 1999-08-31 2002-11-12 Accenture Llp System and method for a telephonic emotion detection that provides operator feedback
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US7346492B2 (en) * 2001-01-24 2008-03-18 Shaw Stroz Llc System and method for computerized psychological content analysis of computer and media generated communications to produce communications management support, indications, and warnings of dangerous behavior, assessment of media images, and personnel selection support
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
US8126713B2 (en) * 2002-04-11 2012-02-28 Shengyang Huang Conversation control system and conversation control method
US20050010411A1 (en) * 2003-07-09 2005-01-13 Luca Rigazio Speech data mining for call center management
US8214214B2 (en) * 2004-12-03 2012-07-03 Phoenix Solutions, Inc. Emotion detection device and method for use in distributed systems
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US8209182B2 (en) * 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
WO2007072485A1 (en) * 2005-12-22 2007-06-28 Exaudios Technologies Ltd. System for indicating emotional attitudes through intonation analysis and methods thereof
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
US8386257B2 (en) * 2006-09-13 2013-02-26 Nippon Telegraph And Telephone Corporation Emotion detecting method, emotion detecting apparatus, emotion detecting program that implements the same method, and storage medium that stores the same program
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
US8798255B2 (en) * 2009-03-31 2014-08-05 Nice Systems Ltd Methods and apparatus for deep interaction analysis
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
US8296152B2 (en) * 2010-02-15 2012-10-23 Oto Technologies, Llc System and method for automatic distribution of conversation topics
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
CN101937431A (zh) * 2010-08-18 2011-01-05 华南理工大学 情感语音翻译装置及处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2000075894A (ja) * 1998-09-01 2000-03-14 Ntt Data Corp 音声認識方法及び装置、音声対話システム、記録媒体
JP2002091482A (ja) * 2000-09-13 2002-03-27 Agi:Kk 感情検出方法及び感情検出装置ならびに記録媒体
JP2010175684A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
JP2010273130A (ja) * 2009-05-21 2010-12-02 Ntt Docomo Inc 詐欺進行度判定装置、辞書生成装置、詐欺進行度判定方法及び辞書生成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015053054A (ja) * 2013-09-06 2015-03-19 イマージョン コーポレーションImmersion Corporation 音声信号に関係付けられる触覚効果を生成するためのシステム及び方法
US10276004B2 (en) 2013-09-06 2019-04-30 Immersion Corporation Systems and methods for generating haptic effects associated with transitions in audio signals
US10388122B2 (en) 2013-09-06 2019-08-20 Immerson Corporation Systems and methods for generating haptic effects associated with audio signals
US10395488B2 (en) 2013-09-06 2019-08-27 Immersion Corporation Systems and methods for generating haptic effects associated with an envelope in audio signals
US10395490B2 (en) 2013-09-06 2019-08-27 Immersion Corporation Method and system for providing haptic effects based on information complementary to multimedia content
JP2016062333A (ja) * 2014-09-18 2016-04-25 株式会社日立製作所 検索サーバ、及び検索方法
CN109885835A (zh) * 2019-02-19 2019-06-14 广东小天才科技有限公司 一种获取用户语料中词语之间的关联关系的方法和系统

Also Published As

Publication number Publication date
CN102623011A (zh) 2012-08-01
JP5602653B2 (ja) 2014-10-08
US20120197644A1 (en) 2012-08-02
CN102623011B (zh) 2014-09-24
US20120316880A1 (en) 2012-12-13

Similar Documents

Publication Publication Date Title
JP5602653B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US11380327B2 (en) Speech communication system and method with human-machine coordination
JP6755304B2 (ja) 情報処理装置
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
CN109493850B (zh) 成长型对话装置
US10412223B2 (en) Personalized support routing based on paralinguistic information
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JP5196199B2 (ja) キーワード表示システム、キーワード表示方法及びプログラム
KR102100214B1 (ko) 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
JP5158022B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
CN113129895A (zh) 一种语音检测处理系统
Johar Paralinguistic profiling using speech recognition
CN111949778A (zh) 一种基于用户情绪的智能语音对话方法、装置及电子设备
KR102407055B1 (ko) 음성인식 후 자연어 처리를 통한 대화 품질지수 측정장치 및 그 방법
CN110099332B (zh) 一种音频环境展示方法及装置
CN114067842A (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
JP2003323445A (ja) 関連用語提示装置、関連用語提示方法及び関連用語提示プログラム
Khan et al. Robust Feature Extraction Techniques in Speech Recognition: A Comparative Analysis
CN109509470B (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
Pietrowicz et al. Discovering dimensions of perceived vocal expression in semi-structured, unscripted oral history accounts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140729

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20140729

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140820

R150 Certificate of patent or registration of utility model

Ref document number: 5602653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees