JP2019168483A

JP2019168483A - 分類情報生成装置、分類情報生成方法、およびプログラム

Info

Publication number: JP2019168483A
Application number: JP2018053802A
Authority: JP
Inventors: 翔大谷; Sho Otani
Original assignee: Zaizen; Zaizen Co Ltd
Current assignee: Zaizen; Zaizen Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2019-10-03
Anticipated expiration: 2038-03-22
Also published as: JP6327777B1; WO2019180973A1

Abstract

【課題】従来、音声情報を２種類以上に適切に分類できる分類情報がなかった。【解決手段】音声情報の一部分である部分音声情報を取得する際の箇所特定情報、およびネガティブな音声を特定する指示をユーザから受け付ける受付部と、前記箇所特定情報を取得する元情報取得部と、前記箇所特定情報を用いて前半音声情報と後半音声情報とを取得する部分音声情報取得部と、前記前半音声情報から第一種特徴量群を取得し、かつ前記指示に対応付いていない後半音声情報から第二種特徴量群を取得する特徴量取得部と、第一種特徴量群と第一種類情報とを有する情報、第二種特徴量群と第二種類情報とを有する情報を用いて、機械学習のアルゴリズムにより、第一種の音声情報と第二種の音声情報とを区別可能な分類情報を構成する分類情報構成部と、分類情報を蓄積する分類情報蓄積部とを具備する分類情報生成装置により、適切な分類情報を生成できる。【選択図】図２

Description

本発明は、音声情報を分類する分類器を作成する分類情報生成装置等に関するものである。

従来、以下のような発話評価装置があった。本装置は、発話者の自由発話の音声信号が入力される入力部と、入力された音声信号から評価に用いられる特徴を抽出する特徴抽出部と、特徴抽出部で抽出された特徴と予め格納されている参照特徴を比較する特徴評価部と、比較結果を出力する出力部とを備え、評価に用いられる特徴には、少なくとも発声の明瞭さが含まれる装置である（特許文献１参照）。

特開２０１５−０６８８９７号公報

しかしながら、従来技術においては、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できなかった。

さらに具体的には、従来技術においては、例えば、ネガティブな音声とポジティブな音声の少なくとも２種類の音声に分類するための分類情報を生成するための適切な音声の一部を、対話された音声から取得し、当該音声の一部から分類情報を構成することができなかった。

本第一の発明の分類情報生成装置は、発話された音声の情報である音声情報が格納される音声情報格納部と、２種類以上の音声情報の種類のうちの少なくとも一つの種類の部分音声情報を音声情報の中から切り出す際に使用される情報であり、音声情報から取得される特徴量以外の情報である元情報を取得する元情報取得部と、当該元情報を用いて、音声情報格納部の音声情報から、少なくとも１種類以上の音声情報である部分音声情報を取得する部分音声情報取得部と、当該部分音声情報から音声の１以上の特徴量を取得する特徴量取得部と、当該１以上の特徴量を用いて、音声情報の種類を特定する際に使用される分類情報を構成する分類情報構成部と、分類情報を蓄積する分類情報蓄積部とを具備する分類情報生成装置である。

かかる構成により、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

また、本第二の発明の分類情報生成装置は、第一の発明に対して、音声情報の出力中に、音声情報から部分音声情報を取得する際の箇所を特定する箇所特定情報をユーザから受け付ける受付部をさらに具備し、元情報取得部は、受付部が受け付けた箇所特定情報である元情報を取得し、部分音声情報取得部は、元情報により特定される箇所の前の音声情報のうちの少なくとも一部である前半音声情報と、元情報により特定される箇所の後の音声情報のうちの少なくとも一部である後半音声情報とを取得し、特徴量取得部は、前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ後半音声情報から１以上の特徴量である第二種特徴量群を取得し、分類情報構成部は、第一種特徴量群と第一種の音声情報であることを示す第一種類情報とを対応付けた情報、および第二種特徴量群と第二種の音声情報であることを示す第二種類情報とを対応付けた情報を用いて、少なくとも第一種の音声情報と第二種の音声情報とを区別する際に使用される分類情報を構成する分類情報生成装置である。

かかる構成により、ユーザからの情報の入力に基づき、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

また、本第三の発明の分類情報生成装置は、第二の発明に対して、箇所特定情報は、部分音声情報を取得する際の箇所を特定する箇所情報と音声情報の種類を特定するための種類特定情報とを有し、部分音声情報取得部は、箇所情報を用いて、音声情報格納部の音声情報から部分音声情報を取得し、部分音声情報を種類特定情報または種類特定情報に対応する種類情報に対応付ける分類情報生成装置である。

かかる構成により、ユーザからの適切な情報の入力に基づき、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

また、本第四の発明の分類情報生成装置は、第二または第三の発明に対して、第一種類情報は、ネガティブな種類の音声情報であることを示す情報であり、第二種類情報は、ポジティブな種類の音声情報であることを示す情報である分類情報生成装置である。

かかる構成により、ユーザからの情報の入力に基づき、音声情報をネガティブな音声またはポジティブな音声に適切に分類できる分類情報を生成できる。

また、本第五の発明の分類情報生成装置は、第四の発明に対して、音声情報格納部には、２以上の音声情報が格納されており、２以上の各音声情報のうちの１以上の音声情報の中の後半音声情報は、ネガティブな種類の音声情報であることを示す第一種類情報に対応付けられており、分類情報構成部は、第一種特徴量群と第一種音声情報であることを示す第一種類情報とを対応付けた情報、および第一種類情報に対応付けられていない後半音声情報から取得された第二種特徴量群と第二種音声情報であることを示す第二種類情報とを対応付けた情報を用いて、分類情報を構成する分類情報生成装置である。

かかる構成により、ユーザからの情報の適切な入力に基づき、音声情報をネガティブな音声またはポジティブな音声に適切に分類できる分類情報を生成できる。

また、本第六の発明の分類情報生成装置は、第五の発明に対して、受付部は、音声情報の出力中に、ネガティブな種類の音声情報であることを特定する指示をユーザから受け付け、受付部が指示を受け付けた場合に、後半音声情報に、後半音声情報を第一種類情報に対応付ける種類情報付加部をさらに具備する分類情報生成装置である。

また、本第七の発明の分類情報生成装置は、第一の発明に対して、元情報取得部は、音声情報に対して音声認識し、テキストを取得する音声認識手段と、テキストの中の１以上の用語を取得する用語取得手段と、部分音声情報取得部は、用語取得手段が取得した１以上の各用語を、用語と種類情報との対応を示す辞書に適用し、用語に対する種類情報を取得し、用語の音声における出現箇所を用いて、用語に対する種類情報に対応する部分音声情報を音声情報から取得する分類情報生成装置である。

かかる構成により、音声認識技術、および自然言語処理技術を用いて、音声情報を適切に分類できる分類情報を生成できる。

また、本第八の発明の分類情報生成装置は、第一から第七いずれか１つの発明に対して、分類情報構成部は、１以上の特徴量を用いて、機械学習のアルゴリズムにより、音声情報の種類を特定する分類器である分類情報を構成する分類情報生成装置である。

かかる構成により、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を機械学習のアルゴリズムにより生成できる。

また、本第九の発明の感情状態推定装置は、音声情報を受け付ける音声受付部と、音声受付部が受け付けた音声情報から音声の１以上の特徴量を取得する特徴量取得部と、１以上の特徴量を、分類情報生成装置が構成した分類情報に適用し、音声情報の種類を示す種類情報を取得する種類情報取得部と、種類情報を出力する種類情報出力部とを具備する感情状態推定装置である。

かかる構成により、分類情報を用いて、音声情報を２種類以上に適切に分類できる。

また、本第十の発明の感情状態推定装置は、第八の発明に対して、種類情報取得部は、１以上の特徴量を、分類情報生成装置が構成した分類情報に適用し、機械学習のアルゴリズムにより、音声情報の種類を示す種類情報を取得する請求項９記載の感情状態推定装置である。

かかる構成により、分類情報を用いて、機械学習のアルゴリズムにより音声情報を２種類以上に適切に分類できる。

また、本第十一の発明の分類情報生成装置は、第九または第十の発明に対して、受付部は、感情状態推定装置が出力した種類情報に対するユーザの変更指示を受け付け、部分音声情報取得部は、変更指示を受け付けた場合に、受け付けた箇所に対応する部分音声情報を音声情報から取得する分類情報生成装置である。

かかる構成により、ユーザの判断結果を用いて、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

本発明による分類情報生成装置によれば、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

実施の形態１における分類情報生成装置Ａを構成する情報システムの概念図同分類情報生成装置Ａのブロック図同分類情報生成装置Ａの動作例について説明するフローチャート同部分音声情報取得処理の例について説明するフローチャート同分類情報構成処理の第一の例について説明するフローチャート同分類情報構成処理の第二の例について説明するフローチャート同分類情報構成処理の第三の例について説明するフローチャート同分類情報構成処理の第四の例について説明するフローチャート同端末装置Ｙの画面例を示す図実施の形態２における分類情報生成装置Ｂのブロック図同分類情報生成装置Ｂの動作例について説明するフローチャート実施の形態３における感情状態推定装置Ｃのブロック図同感情状態推定装置Ｃの動作例について説明するフローチャート同分類処理について説明するフローチャート同感情状態推定装置Ｃを含む情報システムの概念図同出力例を示す図上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、分類情報生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）

本実施の形態において、対話された音声の情報である音声情報から音声の特徴量以外の情報を少なくとも用いて、少なくとも２種類の音声情報を取得し、当該取得した音声情報から２以上の特徴量を取得し、当該２以上の特徴量を学習し、音声情報を分類するための情報である分類情報を生成する学習装置について説明する。なお、分類情報は、分類器と言っても良い。また、音声の特徴量以外の情報は、例えば、ユーザから入力された音声の切り替えの指示、音声情報を音声認識され、得られた文字列から、自然言語処理により取得された１以上の用語である。

また、本実施の形態において、例えば、一般の第一ユーザとオペレータである第二ユーザとの対話における音声から分類情報を生成する学習装置について説明する。その際、第二ユーザから入力されたネガティブな種類の音声であることを特定する指示を受け付けてない場合の後半音声情報をポジティブな音声情報として使用して、分類情報を生成する学習装置について説明する。なお、一般の第一ユーザとオペレータである第二ユーザとの対話は、例えば、購入した商品に対する苦情や修理の依頼や使用方法の説明を求める第一ユーザと、当該第一ユーザが言う苦情等に対応する第二ユーザとの対話である。

図１は、本実施の形態における分類情報生成装置Ａを構成する情報システムの概念図である。情報システムは、一般の１または２以上の第一ユーザの電話機Ｘ、１または２以上の第二ユーザの端末装置Ｙ、および分類情報生成装置Ａを有する。第二ユーザの端末装置Ｙは、第一ユーザと第二ユーザとが電話で対話をするための電話機能を有する。また、端末装置Ｙは、第二ユーザから、後述する箇所特定情報、後述する指示を受け付ける。また、端末装置Ｙは、電話のオペレータが使用する装置である。さらに、分類情報生成装置Ａは、例えば、いわゆるクラウドサーバ、ＡＳＰサーバ等であるが、その種類は問わない。

図２は、本実施の形態における分類情報生成装置Ａのブロック図である。

分類情報生成装置Ａは、格納部１、受付部２、処理部３、および出力部４を備える。格納部１は、音声情報格納部１１、および分類情報格納部１２を備える。受付部２は、音声受付部２１、およびユーザ受付部２２を備える。処理部３は、元情報取得部３１、種類情報付加部３２、部分音声情報取得部３３、特徴量取得部３４、および分類情報構成部３５を備える。出力部４は、分類情報蓄積部４１を備える。

格納部１には、各種の情報が格納される。各種の情報とは、例えば、後述する音声情報、後述する分類情報である。

音声情報格納部１１には、発話された音声の情報である音声情報が格納される。音声情報とは、音声の情報であり、通常、デジタルの音声の情報である。音声情報格納部１１の音声情報は、電話機Ｘから送信された音声の音声情報であり、第一ユーザが発声した音声の音声情報を含む。音声情報は、第二ユーザが発声した音声の音声情報を含んでも良い。音声情報格納部１１の音声情報は、例えば、端末装置Ｙから送信され、受付部２が受け付けた音声情報である。なお、端末装置Ｙから送信された音声情報は、第一ユーザは発声した音声の情報であり、電話機Ｘから送信され、端末装置Ｙが受け付けた音声情報でも良い。また、音声情報格納部１１の音声情報は、例えば、電話機Ｘから送信され、受付部２が受け付けた音声情報である。

音声情報格納部１１には、２以上の音声情報が格納されていることは好適である。音声情報格納部１１には、２以上の第一ユーザが発声した音声の音声情報が格納されていることは好適である。

分類情報格納部１２には、分類情報が格納される。分類情報は、音声情報の種類を特定する際に使用される情報である。分類情報は、後述する分類情報構成部３５が構成した情報である。分類情報は、例えば、後述する分類器、後述する対応表、後述する代表的ベクトル等である。なお、分類情報の詳細については後述する。

受付部２は、各種の情報や指示を受け付ける。各種の情報や指示とは、例えば、音声情報、後述する箇所特定情報、分類情報の取得指示等である。なお、各種の情報や指示の入力手段は、タッチパネルやテンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。

ここで受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して端末装置Ｙから送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

音声受付部２１は、音声情報を受け付ける。音声受付部２１は、第一ユーザが発した音声情報を受け付けることは好適である。音声受付部２１は、例えば、電話機Ｘから音声情報を受信する。また、音声受付部２１は、例えば、電話機Ｘから受信した端末装置Ｙから音声情報を受信する。

ユーザ受付部２２は、ユーザからの箇所特定情報、またはネガティブ指示または変更指示等を受け付ける。なお、かかるユーザは、通常、第二ユーザである。

箇所特定情報とは、音声情報から部分音声情報を取得する際の箇所を特定する情報である。部分音声情報は、音声情報の一部分の情報である。箇所特定情報は、例えば、音声情報の中の箇所を特定するオフセット、音声情報の開始からの相対的な時刻を示す情報などである。ユーザ受付部２２は、出力されている音声情報を聞いている第二ユーザからの指示により箇所特定情報を受け付ける。また、ユーザからの受け付けとは、第二ユーザからの受け付けであり、通常、端末装置Ｙからの受信である。

箇所特定情報は、箇所情報と種類特定情報とを有しても良い。種類特定情報とは、音声情報の種類を特定するための情報である。種類特定情報は、例えば、音声情報の種類を特定するボタンの識別子、音声情報の種類を特定するメニュー項目の識別子である。種類特定情報は、種類情報と同じでも良い。種類情報は、音声情報の種類を特定する情報である。音声情報の種類は、例えば、ポジティブ、ネガティブを含む、２種類以上である。音声情報の種類は、例えば、ポジティブ、ネガティブ、中庸の３種類である。種類特定情報は、例えば、ポジティブまたはネガティブのいずれかを示すフラグである。また、種類特定情報は、例えば、ポジティブまたはネガティブの程度を５段階に分けた情報等でも良い。５段階の情報は、例えば、大変ポジティブ（例えば「５」）、ポジティブ（例えば「４」）、普通（例えば「３」）、ネガティブ（例えば「２」）、大変ネガティブ（例えば「１」）である。なお、箇所特定情報が箇所情報と種類特定情報とを有する場合、例えば、第二ユーザが端末装置Ｙに対して、変更指示を入力した場合である。また、箇所特定情報が箇所情報と種類特定情報とを有する場合、例えば、第二ユーザが端末装置Ｙに対して、「ネガティブ」ボタン、または「ポジティブ」ボタンを押下した場合である。なお、「ネガティブ」ボタンの押下は、ネガティブな感情（例えば、怒っているなど）で、第一ユーザが発話している場合に第二ユーザがボタンを押下する場合である。また、「ポジティブ」ボタンの押下は、ポジティブな感情（例えば、平常心、怒りが収まっている、喜んでいるなど）で、第一ユーザが発話している場合に第二ユーザがボタンを押下する場合である。

ユーザ受付部２２は、例えば、第一ユーザが苦情を第二ユーザに言った後、第二ユーザが苦情に対する対応を行った後のタイミングで、第二ユーザが入力した箇所特定情報を受け付ける。なお、箇所特定情報が受け付けられた後は、例えば、ネガティブな感情を持って苦情を言っていたユーザは、第二ユーザの回答等の対応により、ポジティブな感情に変わった後である。

ユーザ受付部２２は、音声情報の出力中に、ネガティブ指示をユーザから受け付けても良い。例えば、第一ユーザが苦情を第二ユーザに言った後、第二ユーザが苦情に対する対応を行ったが、第一ユーザのネガティブな感情が収まらないことを認識した第二ユーザが、ネガティブ指示を入力し、受付部２は、かかるネガティブ指示を受け付ける。また、ネガティブ指示は、例えば、第二ユーザによる「ネガティブ」ボタンの押下により受け付けられる。

変更指示は、後述する感情状態推定装置Ｃが出力した種類情報に対するユーザの変更指示である。感情状態推定装置Ｃが、例えば、「ポジティブ」である旨の種類情報を出力した場合、第二ユーザが、第一ユーザの感情は「ネガティブ」であると考え、「ネガティブ」である旨を示す変更指示を入力し、ユーザ受付部２２は、かかる変更指示を受け付ける。変更指示は、例えば、第二ユーザが「ネガティブ」ボタンを押下することにより入力される。

処理部３は、各種の処理を行う。各種の処理とは、例えば、元情報取得部３１、種類情報付加部３２、部分音声情報取得部３３、特徴量取得部３４、分類情報構成部３５が行う処理である。

元情報取得部３１は、元情報を取得する。元情報とは、２種類以上の音声情報の種類のうちの少なくとも一つの種類の部分音声情報を音声情報の中から切り出す際に使用される情報である。元情報は、音声情報から取得される特徴量以外の情報である。元情報は、例えば、受付部２が受け付けた箇所特定情報である。元情報は、例えば、第二ユーザの発話が終了し、第一ユーザの発話に切り替わった箇所を示す箇所特定情報である。なお、例えば、処理部３が、音声情報を解析し、第二ユーザから第一ユーザに切り替わったことを検知しても良い。かかる検知方法は公知技術であるので、詳細な説明は省略する。また、実施の形態２では、元情報取得部は、音声認識処理および自然言語処理により、音声情報の種類を特定するために使用される１以上の用語を取得する。かかる１以上の用語も元情報である。

種類情報付加部３２は、ユーザ受付部２２が指示を受け付けた場合に、後半音声情報を第一種類情報に対応付ける。通常、音声情報の出力中に、ユーザ受付部２２が指示を受け付けた場合に、種類情報付加部３２は、後半音声情報を第一種類情報に対応付ける。なお、かかる指示は、ネガティブな種類の音声情報であることを特定する指示である。また、かかる指示は変更指示でも良い。第一種類情報と第二種類情報とは、種類情報の例である。

第一種類情報とは、例えば、ネガティブな種類の音声情報であることを示す情報である。第二種類情報は、例えば、ポジティブな種類の音声情報であることを示す情報である。第一種類情報と第二種類情報とは、異なる種類の音声情報であることを示す情報である。

部分音声情報取得部３３は、元情報を用いて、音声情報格納部１１の音声情報から、少なくとも１種類以上の部分音声情報を取得する。なお、音声情報格納部１１の音声情報は、受け付けられて、一時的に音声情報格納部１１に格納されている音声情報でも良い。

部分音声情報取得部３３は、元情報により特定される箇所の前の音声情報のうちの少なくとも一部を含む前半音声情報と、元情報により特定される箇所の後の音声情報のうちの少なくとも一部である後半音声情報とを取得することは好適である。なお、前半音声情報は、元情報により特定される箇所の前の音声情報のうちの少なくとも一部のみでも良い。また、後半音声情報は、元情報により特定される箇所の後の音声情報のうちの少なくとも一部のみでも良い。

部分音声情報取得部３３は、元情報により特定される箇所より第一の余裕分だけ前の箇所以前の音声情報である前半音声情報と、元情報により特定される箇所の第二の余裕分だけ後の箇所以降の音声情報である後半音声情報とを取得しても良い。なお、第一の余裕分と第二の余裕分は、時間でも良いし、音声情報のストリームのパケット数等でも良い。また、第一の余裕分と第二の余裕分とは、同じでも良いし、異なっていても良い。

部分音声情報取得部３３は、箇所特定情報を用いて、音声情報格納部１１の音声情報から部分音声情報を取得し、当該部分音声情報を種類特定情報に対応する種類情報に対応付ける。部分音声情報取得部３３は、例えば、箇所特定情報が有する箇所情報に対応する箇所に対応する部分音声情報を音声情報格納部１１の音声情報から取得し、当該部分音声情報を、箇所特定情報が有する種類特定情報または当該種類特定情報に対応する種類情報に対応付ける。箇所情報に対応する箇所とは、箇所情報が示す箇所でも良いし、箇所情報が示す箇所より第一の余裕分だけ前の箇所でも良いし、箇所情報が示す箇所より第二の余裕分だけ後の箇所でも良い。

部分音声情報取得部３３は、例えば、音声情報格納部１１の音声情報から取得した前半音声情報を、「ネガティブ」を示す種類情報に対応付け、音声情報格納部１１の音声情報から取得した後半音声情報を、「ポジティブ」を示す種類情報に対応付ける。

部分音声情報取得部３３は、受付部２が変更指示を受け付けた場合に、受け付けた箇所に対応する部分音声情報を音声情報から取得する。

部分音声情報取得部３３は、受付部２が変更指示を受け付けた場合に、例えば、受け付けた箇所に対応する後半音声情報を、「ネガティブ」を示す種類情報に対応付けても良い。かかる場合、出力中の音声情報は、通常、「ポジティブ」を示す種類情報に対応付けられるべき音声情報である

特徴量取得部３４は、音声情報から音声の１以上の特徴量を取得する。特徴量取得部３４は、通常、部分音声情報から音声の１以上の特徴量を取得する。１以上の特徴量は、例えば、音量に関する音量情報、間に関する間情報、ピッチに関するピッチ情報、リズムに関するリズム情報、吃音に関する吃音情報、ブレスに関するブレス情報、ビブラートに関するビブラート情報、音程に関する音程情報である。音量情報は、例えば、声の絶対的な大きさ（例えば、単位は、デシベル）、声の相対的な大きさである。相対的な大きさは、基準値１．０として、声の大きさを基準値と比較した比率で表した値である。なお、基準値は、例えば、会話の全体の平均音量を示す値である。また、基準値は、例えば、予め格納部１に格納されている値である。間情報は、例えば、声を出していない無音区間の時間、音量が閾値以下または閾値より小さい時間の割合、閾値以下または閾値より小さい時の音量が連続する時間の合計、ある一定時間の中で話者の音量が閾値上下に存在する時間の割合等である。ピッチ情報は、例えば、声の周波数、声の周波数の移動平均、声の周波数の変化率（微分値）、声の周波数の分散値である。リズム情報は、例えば、一定時間の中に含まれる音の数、一定時間の中に含まれる音の数の移動平均、一定時間の中に含まれる音の数の変化率（微分値）、一定時間の中に含まれる音の数の分散値である。吃音情報は、例えば、一定時間の中に同じ音が３回以上連続であらわれた回数、一定時間の中に同じ音が３回以上連続であらわれたか否か、連続した発話の中に同じ音が３回以上連続であらわれた回数、連続した発話の中に同じ音が３回以上連続であらわれたか否か等である。ブレス情報は、例えば、一定時間の中で息を吸った回数、連続した発話の中で息を吸った回数、ビブラート情報は、例えば、声の揺れ方の程度を示す値、声の揺れ方の程度を示す値の移動平均、声の揺れ方の程度を示す値の変化率（微分値）、声の揺れ方の程度を示す値の分散値である。音程情報は、声の音程を示す情報（例えば、単位はセント）、声の音程を示す情報の移動平均、声の音程を示す情報の変化率（微分値）、声の音程を示す情報の分散値である。

なお、特徴量取得部３４が部分音声情報から音声の特徴量を取得する技術については公知技術であるので詳細な説明は省略する。また、特徴量取得部３４が取得する特徴量は、種々、考えられる。また、特徴量は、特徴的な値、特徴を示す値、特徴と言っても良い。

特徴量取得部３４は、前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ後半音声情報から１以上の特徴量である第二種特徴量群を取得することは好適である。第一種特徴量群と第二種特徴量群とは、ベクトルで表現され得る。第一種特徴量群と第二種特徴量群は、各々、第一特徴量ベクトル、第二特徴量ベクトルと言っても良い。

分類情報構成部３５は、特徴量取得部３４が取得した１以上の特徴量を用いて、音声情報の種類を特定する際に使用される分類情報を構成する。

分類情報構成部３５は、例えば、第一種特徴量群と第一種類情報とを対応付けた情報、および第二種特徴量群と第二種類情報とを対応付けた情報を用いて、分類情報を構成する。なお、第一種類情報は、第一種の音声情報であることを示す情報である。また、第二種類情報は、第二種の音声情報であることを示す情報である。

また、２つの情報を対応付けた情報とは、２つの情報を含む情報でも良いし、２つの情報間のリンクの情報等でも良く、２つの情報を取得するための情報であれば、情報の構造は問わない。つまり、第一種特徴量群と第一種類情報とを対応付けた情報は、第一種特徴量群と第一種類情報とを有する情報でも良く、結果として第一種特徴量群と第一種類情報とが取得するための情報であれば良い。また、第二種特徴量群と第二種類情報とを対応付けた情報は、第二種特徴量群と第二種類情報とを有する情報でも良く、結果として第二種特徴量群と第二種類情報とが取得するための情報であれば良い。また、分類情報は、少なくとも第一種の音声情報と第二種の音声情報とを区別する際に使用される情報である。

分類情報構成部３５は、例えば、第一種特徴量群と第一種類情報とを対応付けた情報、および第二種特徴量群と第二種類情報とを対応付けた情報を用いて、分類情報を構成する。第一種類情報に対応付けられていない後半音声情報とは、例えば、「ネガティブ」であることを示す情報に対応付けられていない後半音声情報である。なお、第二種特徴量群は、第一種類情報に対応付けられていない後半音声情報から取得された１または２以上の特徴量の集合であることは好適である。

分類情報構成部３５が分類情報を構成するアルゴリズムとして、以下の３つの方法がある。第一は、機械学習により分類器を構成する場合である。第二は、対応表等を構成する場合である。第三は、代表的ベクトルを構成する場合である。なお、分類器、対応表等、演算式は、分類情報の例である。以下、３つの場合について詳細に説明する。
（１）機械学習により分類器を構成する場合

分類情報構成部３５は、例えば、１以上の特徴量を用いて、機械学習のアルゴリズムにより、音声情報の種類を特定する分類情報を構成する。かかる場合、分類情報は、分類器と言っても良い。

分類情報構成部３５は、例えば、第一種特徴量群と第一種類情報とを対応付けた情報、および第二種特徴量群と第二種類情報とを対応付けた情報を用いて、機械学習のアルゴリズムにより、分類情報を構成する。機械学習のアルゴリズムは、例えば、深層学習、ＳＶＭ、決定木、ランダムフォレスト等である。ただし、機械学習のアルゴリズムは問わない。

分類情報構成部３５は、例えば、第一種特徴量群と第一種類情報との１または２以上の組、および第二種特徴量群と第二種類情報との１または２以上の組を用いて、機械学習のアルゴリズムにより、分類情報を構成する。機械学習のアルゴリズムは、上述したように、種々あり得、そのアルゴリズムは問わない。
（２）対応表等を構成する場合

分類情報構成部３５は、例えば、第一種類情報に対応する１または２以上の第一種特徴量群と、第二種類情報に対応する１または２以上の第二種特徴量群との集合である分類情報を構成する。

また、分類情報構成部３５は、例えば、第一種類情報と第一種特徴量群との組である１以上の対応情報、および第二種類情報と第二種特徴量群との組である１以上の対応情報を有する分類情報を構成する。なお、２以上の対応情報を有する情報を対応表という。
（３）代表ベクトルを構成する場合

分類情報構成部３５は、例えば、１または２以上のベクトルである第一種特徴量群と第一種類情報とを対応付けた情報から、１以上の第一種特徴量群を取得し、当該１以上のベクトルである第一種特徴量群に対して予め決められた演算を行い、１以上の第一種特徴量群を代表するベクトルである第一種類情報の代表ベクトルを取得する。また、分類情報構成部３５は、例えば、１または２以上のベクトルである第二種特徴量群と第二種類情報とを対応付けた情報から、１以上の第二種特徴量群を取得し、当該１以上のベクトルである第二種特徴量群に対して予め決められた演算を行い、１以上の第二種特徴量群を代表するベクトルである第二種類情報の代表ベクトルを取得する。

なお、予め決められた演算は、例えば、１以上のベクトルである第一種特徴量群の要素ごとに、代表値（例えば、平均値、中央値など）を取得し、当該代表値をベクトルの要素とするベクトルを取得する処理である。

出力部４は、各種の情報を出力する。各種の情報とは、例えば、分類情報構成部３５が構成した分類情報、音声情報格納部１１の音声情報である。

また、ここでの分類情報の出力とは、通常、記録媒体への蓄積であるが、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。また、音声情報の出力とは、通常、音声の出力であるが、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

出力部４は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部４は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

分類情報蓄積部４１は、分類情報構成部３５が構成した分類情報を蓄積する。分類情報蓄積部４１は、通常、分類情報格納部１２に分類情報を蓄積するが、外部の装置の記録媒体に分類情報を蓄積しても良い。

格納部１、音声情報格納部１１、および分類情報格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

格納部１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１等で記憶されるようになってもよい。

受付部２、音声受付部２１、およびユーザ受付部２２は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

処理部３、元情報取得部３１、種類情報付加部３２、部分音声情報取得部３３、特徴量取得部３４、分類情報構成部３５、出力部４、および分類情報蓄積部４１は、通常、ＭＰＵやメモリ等から実現され得る。処理部３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、分類情報生成装置Ａの動作例について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）音声受付部２１は、音声情報を受け付けたか否かを判断する。音声情報を受け付けた場合はステップＳ３０２に行き、音声情報を受け付けかった場合はステップＳ３０３に行く。なお、音声受付部２１が受け付ける音声情報は、例えば、第一ユーザが発声した音声をデジタル化した情報を含む。

（ステップＳ３０２）処理部３は、ステップＳ３０１で受け付けられた音声情報を音声情報格納部１１に少なくとも一時蓄積する。ステップＳ３０１に戻る。なお、蓄積される音声情報は、第一ユーザが発した音声情報のみであることは好適である。また、２人での対話における音声情報の中から、一のユーザ（例えば、第一ユーザ）のみの音声情報を抽出する技術は公知技術であるので、詳細な説明は省略する。また、音声情報の受け付けの後、直ちに、出力部４は当該音声情報を出力しても良い。かかる場合、第二ユーザは、当該音声情報を聞く。

（ステップＳ３０３）ユーザ受付部２２は、ユーザ（例えば、第二ユーザ）から箇所特定情報を受け付けたか否かを判断する。箇所特定情報を受け付けた場合はステップＳ３０４に行き、箇所特定情報を受け付けなかった場合はステップＳ３０６に行く。なお、ユーザ受付部２２が箇所特定情報を受け付ける場合は、音声情報の出力中であることは好適である。また、音声情報が出力されている場合は、例えば、ステップＳ３０１で音声受付部２１が音声情報を受け付けた場合、またはステップＳ３１３でユーザ受付部２２が音声情報の出力指示が受け付けた場合である。

（ステップＳ３０４）元情報取得部３１は、ステップＳ３０３で受け付けられた箇所特定情報を取得する。

（ステップＳ３０５）部分音声情報取得部３３は、ステップＳ３０４で取得された箇所特定情報を、音声情報の出力中の箇所に対応付ける。ステップＳ３０１に戻る。なお、箇所特定情報と音声情報との対応付け方法は、は問わない。当該方法は、例えば、音声情報の出力中の箇所を示すオフセットを取得し、図示しないバッファに蓄積すること、箇所特定情報と音声情報の出力中の箇所を示すオフセットとの組の情報を図示しないバッファに蓄積すること、音声情報のデータ領域に箇所特定情報（フラグでも良い）を蓄積すること等である。

（ステップＳ３０６）ユーザ受付部２２は、ユーザから変更指示を受け付けたか否かを判断する。変更指示を受け付けた場合はステップＳ３０７に行き、変更指示を受け付けなかった場合はステップＳ３０９に行く。なお、ユーザは、例えば、第二ユーザである。

（ステップＳ３０７）種類情報付加部３２は、ステップＳ３０６で受け付けられた変更指示を取得する。

（ステップＳ３０８）種類情報付加部３２は、ネガティブな音声情報であることを示す第一種類情報を音声情報に対応付ける。ステップＳ３０１に戻る。なお、ここで、第一種類情報が対応付けられる音声情報は、例えば、後半音声情報である。

（ステップＳ３０９）処理部３は、分類情報を取得するタイミングであるか否かを判断する。分類情報を取得するタイミングである場合はステップＳ３１０に行き、分類情報を取得するタイミングでない場合はステップＳ３１３に行く。なお、分類情報を取得するタイミングは、例えば、ユーザから分類情報の取得指示が受け付けられた場合、予め決められた時刻になった場合等である。分類情報を取得するタイミングは、問わない。

（ステップＳ３１０）部分音声情報取得部３３は、部分音声情報取得処理を行う。かかる処理は、部分音声情報を取得する処理である。部分音声情報取得処理の例について、図４のフローチャートを用いて説明する。

（ステップＳ３１１）分類情報構成部３５等は、分類情報構成処理を行う。かかる処理は、分類情報を取得する処理である。分類情報構成処理の例について、図５〜図８のフローチャートを用いて説明する。

（ステップＳ３１２）分類情報蓄積部４１は、ステップＳ３１１で取得された１または２以上の分類情報を蓄積する。蓄ステップＳ３０１に戻る。なお、分類情報の蓄積先は、例えば、分類情報格納部１２、外部の装置等である。分類情報の蓄積先は問わない。

（ステップＳ３１３）ユーザ受付部２２が音声情報の出力指示を受け付けたか、または音声情報が出力中であるか否かを判断する。かかる場合であればテップＳ３１４に行き、かかる場合でなければステップＳ３１５に行く。

（ステップＳ３１４）出力部４は、音声情報を、順次、出力する。ステップＳ３０１に戻る。なお、音声情報は、通常、ストリームであり、出力部４は、連続して音声情報を出力しつつ、分類情報生成装置Ａは、外部から箇所特定情報や変更指示等を受け付ける。

（ステップＳ３１５）ユーザ受付部２２が、ネガティブ指示を受け付けたか否かを判断する。ネガティブ指示を受け付ければテップＳ３１６行き、ネガティブ指示を受け付けなければステップＳ３０１に戻る。

（ステップＳ３１６）処理部３は、音声情報の出力中の箇所に、ネガティブ指示を対応付ける。ステップＳ３０１に戻る。なお、かかるネガティブ指示が対応付けられる音声情報は、例えば、後半音声情報である。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ３１０の部分音声情報取得処理の例について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）部分音声情報取得部３３は、カウンタｉに１を代入する。

（ステップＳ４０２）部分音声情報取得部３３は、音声情報格納部１１にｉ番目の音声情報が存在するか否かを判断する。ｉ番目の音声情報が存在すればステップＳ４０３に行き、ｉ番目の音声情報が存在しなければ上位処理にリターンする。

（ステップＳ４０３）部分音声情報取得部３３は、ｉ番目の音声情報に対応付いている１以上の元情報を取得する。なお、元情報は、例えば、箇所特定情報である。

（ステップＳ４０４）部分音声情報取得部３３は、カウンタｊに１を代入する。

（ステップＳ４０５）部分音声情報取得部３３は、ステップＳ４０３で取得した１以上の元情報のうち、ｊ番目の元情報が存在するか否かを判断する。ｊ番目の元情報が存在すればステップＳ４０３に行き、ｊ番目の元情報が存在しなければステップＳ４１０に行く。

（ステップＳ４０６）部分音声情報取得部３３は、ｊ番目の元情報に対応する１または２以上の部分音声情報をｉ番目の音声情報から取得する。部分音声情報取得部３３は、例えば、箇所特定情報が示す箇所より前の部分音声情報であり、第一ユーザの部分音声情報をｉ番目の音声情報から取得する。なお、かかる部分音声情報は、前半音声情報である。また、部分音声情報取得部３３は、例えば、箇所特定情報が示す箇所より後の部分音声情報であり、第一ユーザの部分音声情報をｉ番目の音声情報から取得する。なお、かかる部分音声情報は、後半音声情報である。

また、部分音声情報取得部３３は、例えば、箇所特定情報が示す箇所より第一の余裕分の箇所より前の部分音声情報であり、第一ユーザの部分音声情報をｉ番目の音声情報から取得する。なお、かかる部分音声情報は、前半音声情報である。また、部分音声情報取得部３３は、例えば、箇所特定情報が示す箇所より第二の余裕分の箇所より後の部分音声情報であり、第一ユーザの部分音声情報をｉ番目の音声情報から取得する。なお、かかる部分音声情報は、後半音声情報である。

なお、部分音声情報取得部３３は、ｊ番目の元情報を用いて、音声情報から部分音声情報を切り出す範囲は、種々あり得、問わない。

（ステップＳ４０７）部分音声情報取得部３３は、ｊ番目の元情報に対応する１または２以上の種類情報を取得する。部分音声情報取得部３３は、例えば、ｊ番目の元情報を用いて取得された前半音声情報に対応する種類情報として、ネガティブな音声情報であることを示す第一種類情報を取得する。また、部分音声情報取得部３３は、例えば、ｊ番目の元情報を用いて取得された後半音声情報に対応する種類情報として、ポジティブな音声情報であることを示す第二種類情報を取得する。

（ステップＳ４０８）部分音声情報取得部３３は、ステップＳ４０６で取得した１以上の各部分音声情報を、ステップＳ４０７で取得した種類情報に対応付けて蓄積する。例えば、部分音声情報取得部３３は、ステップＳ４０６で取得した前半音声情報を第一種類情報に対応付け、ステップＳ４０６で取得した後半音声情報を第二種類情報に対応付ける。なお、部分音声情報と種類情報との蓄積先は、図示しないバッファ、格納部１等、問わない。

（ステップＳ４０９）部分音声情報取得部３３は、カウンタｊを１、インクリメントする。ステップＳ４０５に戻る。

（ステップＳ４１０）部分音声情報取得部３３は、カウンタｉを１、インクリメントする。ステップＳ４０２に戻る。

次に、ステップＳ３１１の分類情報構成処理の第一の例について、図５のフローチャートを用いて説明する。分類情報構成処理の第一の例は、音声情報の複数の種類を一度に判断できる分類器を機械学習のアルゴリズムにより構成する例である。

（ステップＳ５０１）特徴量取得部３４は、カウンタｉに１を代入する。

（ステップＳ５０２）特徴量取得部３４は、ｉ番目の種類情報が存在するか否かを判断する。ｉ番目の種類情報が存在する場合はステップＳ５０３に行き、ｉ番目の種類情報が存在しない場合はステップＳ５０８に行く。なお、特徴量取得部３４は、種類情報の数を予め保持していても良いし、部分音声情報に対応付くすべての種類情報を取得し、当該種類情報に対してユニーク処理を行い、種類情報の数を取得する等しても良い。

（ステップＳ５０３）特徴量取得部３４は、カウンタｊに１を代入する。

（ステップＳ５０４）特徴量取得部３４は、ｉ番目の種類情報に対応するｊ番目の部分音声情報が存在するか否かを判断する。ｊ番目の部分音声情報が存在する場合はステップＳ５０５に行き、ｊ番目の部分音声情報が存在しない場合はステップＳ５０７に行く。なお、部分音声情報は、ステップＳ４０８で蓄積された情報である。

（ステップＳ５０５）特徴量取得部３４は、ｊ番目の部分音声情報から１または２以上の特徴量である特徴量群を取得し、当該１以上の特徴量をｉ番目の種類情報に対応付けて、図示しないバッファに一時蓄積する。

（ステップＳ５０６）特徴量取得部３４は、カウンタｊを１、インクリメントする。ステップＳ５０４に戻る。

（ステップＳ５０７）特徴量取得部３４は、カウンタｉを１、インクリメントする。ステップＳ５０２に戻る。

（ステップＳ５０８）分類情報構成部３５は、図示しないバッファに一時蓄積された特徴量群と種類情報との複数の組を入力とし、機械学習のアルゴリズムにより分類器を構成する。上位処理にリターンする。なお、かかる機械学習のアルゴリズムは、例えば、ランダムフォレスト、深層学習等である。また、かかる分類器は、例えば、複数の各種類情報が示す各種類に属する尤度を出力する分類器でも良いし、属する一の種類の種類情報を出力する分類器でも良い。

次に、ステップＳ３１１の分類情報構成処理の第二の例について、図６のフローチャートを用いて説明する。なお、分類情報構成処理の第二の例は、機械学習のアルゴリズムにより、音声情報の複数の各種類ごとに分類器を構成する例である。かかる分類器は、例えば、当該分類器に対応する種類に属する尤度を出力する。また、図６のフローチャートにおいて、図５のフローチャートのステップと同一のステップについて、説明を省略する。

（ステップＳ６０１）分類情報構成部３５は、カウンタｉに１を代入する。

（ステップＳ６０２）分類情報構成部３５は、ｉ番目の種類情報が存在するか否かを判断する。ｉ番目の種類情報が存在する場合はステップＳ６０３に行き、ｉ番目の種類情報が存在しない場合は上位処理にリターンする。なお、分類情報構成部３５は、予め種類情報の数を保持していても良いし、部分音声情報に対応付くすべての種類情報を取得し、当該種類情報に対してユニーク処理を行い、種類情報の数を取得する等しても良い。

（ステップＳ６０３）分類情報構成部３５は、ｉ番目の種類情報に対応する１または２以上の特徴量群を図示しないバッファから取得し、当該１以上の特徴量群を正例とする。また、分類情報構成部３５は、ｉ番目の種類情報に対応しない１または２以上の特徴量群を図示しないバッファから取得し、当該１以上の特徴量群を負例とする。そして、分類情報構成部３５は、正例の１以上の特徴量群と、負例の１以上の特徴量群とを入力として、機械学習のアルゴリズムに分類器を構成する。なお、かかる機械学習のアルゴリズムは、二値分類を行える機械学習であり、例えば、ＳＶＭ等である。また、分類情報構成部３５は、ｉ番目の種類情報に対応しない全ての特徴量群を負例として使用する必要は無い。例えば、分類情報構成部３５は、ｉ番目の種類情報に対応する特徴量群の第一の数を取得し、当該第一の数に対応する第二の数のｉ番目の種類情報に対応しない特徴量群のみを取得し、負例として使用しても良い。第一の数に対応する第二の数とは、第一の数と同じ第二の数でも良いし、「第二の数＝ｆ（第一の数）」により算出された第二の数でも良い。なお、関数ｆは、通常、第一の数をパラメータとする増加関数である。

（ステップＳ６０４）分類情報構成部３５は、カウンタｉを１、インクリメントする。ステップＳ６０２に戻る。

次に、ステップＳ３１１の分類情報構成処理の第三の例について、図７のフローチャートを用いて説明する。なお、分類情報構成処理の第三の例は、分類情報が対応表である場合である。かかる対応表は、２以上の対応情報を有する。対応情報は、例えば、特徴量群と種類情報との対の情報である。また、図７のフローチャートにおいて、図５のフローチャートのステップと同一のステップについて、説明を省略する。

（ステップＳ７０１）分類情報構成部３５は、ステップＳ５０５で取得された１以上の特徴量である特徴量群とｉ番目の種類情報とを有する対応情報を蓄積する。ステップＳ５０６に行く。なお、図７にあるように、ステップＳ５０５からステップＳ７０１に処理が移行する。

次に、ステップＳ３１１の分類情報構成処理の第四の例について、図８のフローチャートを用いて説明する。なお、分類情報構成処理の第四の例は、種類情報ごとに代表ベクトルを構成する場合である。つまり、かかる場合の分類情報は、種類情報と代表ベクトルとの組の情報を２組以上、有する。また、図８のフローチャートにおいて、図５のフローチャートのステップと同一のステップについて、説明を省略する。

（ステップＳ８０１）分類情報構成部３５は、ステップＳ５０５で取得されたｉ番目の種類情報に対応する部分音声情報から取得された１または２以上の特徴量群を図示しないバッファから取得し、当該１以上の特徴量群から代表ベクトルを取得する。なお、ステップＳ５０４からステップＳ８０１に処理が移行した。

（ステップＳ８０２）分類情報構成部３５は、ｉ番目の種類情報と代表ベクトルとを有する対応情報を構成し、図示しないバッファに一時蓄積する。ステップＳ５０７に行く。

（ステップＳ８０３）分類情報構成部３５は、ステップＳ８０２で構成された２以上の対応情報からなる対応表を構成する。上位処理にリターンする。また、ステップＳ５０２からステップＳ８０３に処理が移行した。

以下、本実施の形態における分類情報生成装置Ａの具体的な動作について説明する。分類情報生成装置Ａの概念図は図１である。

今、商品に対する苦情を言おうと、第一ユーザが、当該商品を販売する企業のお客様相談室のオペレータに電話をかけた、とする。なお、オペレータは、第二ユーザである。

そして、まず、第一ユーザが第二ユーザに商品の苦情を、怒った様子で、電話で伝えた、とする。かかる段階で、第一ユーザが発した音声の音声情報は分類情報生成装置Ａに送信され、分類情報生成装置Ａの音声受付部２１は、当該音声情報を受け付ける。そして、出力部４は、当該音声情報を音声情報格納部１１に蓄積する。

次に、第二ユーザは、かかる苦情を宥めるべく、懇切丁寧に商品の説明を第一ユーザに対して、電話で行い、第一ユーザの怒りの気持ちが消えた、とする。そして、第二ユーザは、第一ユーザが納得してくれ、第一ユーザの怒りの気持ちが消えたことを認識し、図９に示す端末装置Ｙの画面の「ポジティブ」ボタン９０１を押下した、とする。すると、かかるボタンの押下を受け付けた端末装置Ｙは、箇所特定情報を分類情報生成装置Ａに送信する。そして、分類情報生成装置Ａのユーザ受付部２２は箇所特定情報を端末装置Ｙから受信する。なお、箇所特定情報は、例えば、フラグや「ポジティブ」を示す情報等である。次に、元情報取得部３１は、ステップＳ３０３で受け付けられた箇所特定情報を取得する。次に、部分音声情報取得部３３は、取得された箇所特定情報を音声情報の出力中の箇所に対応付ける。つまり、箇所特定情報は、第二ユーザが第一ユーザの怒りの気持ちが消えたと判断した時点の音声情報に対応付けられる。

次に、第一ユーザは、例えば、「良く分かりました。丁寧なご説明を有り難うございます。今後、上手く商品を使うようにします。・・・」といった発話を行った、とする。すると、かかる音声情報が分類情報生成装置Ａに送信され、分類情報生成装置Ａの音声受付部２１は、当該音声情報を受け付ける。そして、出力部４は、当該音声情報を音声情報格納部１１に蓄積する。

以上のような音声情報と箇所特定情報との蓄積の処理が、第一ユーザと第二ユーザとの１以上の組ごとの対話に対して、行われる。

なお、第二ユーザが、例えば、十分に説明したにも関わらず、第一ユーザに説明が理解されず、第一ユーザのネガティブな感情に変化がない、と第二ユーザが判断した場合、第二ユーザが、図９に示す端末装置Ｙの画面の「ネガティブ」ボタン９０２を押下した、とする。そして、かかる場合、「ネガティブ」ボタン９０２の押下に対応する指示であり、ネガティブな種類の音声であることを特定する指示が分類情報生成装置Ａに送信される。そして、分類情報生成装置Ａの受付部２は、かかる指示を受信する。次に、処理部３は、ネガティブな種類の音声であることを特定する指示を、出力中の音声情報の箇所に対応付ける。なお、かかる指示が対応付いた音声情報は後半音声情報である。

次に、分類情報生成装置Ａのユーザは、分類情報生成装置Ａに対して、分類情報の取得指示を入力した、とする。すると、処理部３は、分類情報を取得するタイミングであると判断する。なお、分類情報生成装置Ａのユーザは、第二ユーザでも良いし、他のユーザでも良い。

次に、部分音声情報取得部３３は、音声情報格納部１１の多数の音声情報を用いて、上述した部分音声情報取得処理を行う。そして、２以上の各第二ユーザが発した前半音声情報に対して、ネガティブを示す第一種類情報が付加された部分音声情報が音声情報格納部１１に多数、蓄積される。また、２以上の各第二ユーザが発した後半音声情報に対して、ポジティブを示す第二種類情報が付加された部分音声情報が音声情報格納部１１に多数、蓄積された、とする。なお、２以上の各第二ユーザが発した後半音声情報でも、ネガティブな種類の音声であることを特定する指示に対応付いている後半音声情報は、音声情報格納部１１に蓄積されなくても良いし、ネガティブを示す第一種類情報が付加された部分音声情報として、音声情報格納部１１に蓄積されても良い。

次に、特徴量取得部３４は、音声情報格納部１１の各部分音声情報から特徴量群を取得する。そして、特徴量取得部３４は、特徴量群を種類情報に対応付ける。

次に、分類情報構成部３５は、種類情報に対応付いた多数の特徴量群を用いて、分類情報を構成する。なお、分類情報の構成処理は、上述した処理のうちのいずれかを用いる。そして、分類情報蓄積部４１は、構成された１または２以上の分類情報を分類情報格納部１２に蓄積する。

以上、本実施の形態によれば、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

また、本実施の形態によれば、ユーザからの情報の入力に基づき、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

また、本実施の形態によれば、ユーザからの情報の入力に基づき、音声情報をネガティブな音声またはポジティブな音声に適切に分類できる分類情報を生成できる。

また、本実施の形態によれば、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を機械学習のアルゴリズムにより生成できる。

さらに、本実施の形態によれば、ユーザの変更指示の入力により、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における分類情報生成装置Ａを実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、例えば、発話された音声の情報である音声情報が格納される音声情報格納部にアクセス可能なコンピュータを、２種類以上の音声情報の種類のうちの少なくとも一つの種類の部分音声情報を音声情報の中から切り出す際に使用される情報であり、前記音声情報から取得される特徴量以外の情報である元情報を取得する元情報取得部と、前記元情報を用いて、前記音声情報格納部の音声情報から、少なくとも１種類以上の音声情報である部分音声情報を取得する部分音声情報取得部と、前記部分音声情報から音声の１以上の特徴量を取得する特徴量取得部と、前記１以上の特徴量を用いて、音声情報の種類を特定する際に使用される分類情報を構成する分類情報構成部と、前記分類情報を蓄積する分類情報蓄積部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記分類情報構成部は、前記１以上の特徴量を用いて、機械学習のアルゴリズムにより、前記音声情報の種類特定する分類器である分類情報を構成するものとして、コンピュータを機能させるプログラムであることは好適である。

また、このプログラムは、例えば、対話された音声の情報である音声情報が格納される音声情報格納部にアクセス可能なコンピュータを、前記音声情報の出力中に、当該音声情報から前記部分音声情報を取得する際の箇所を特定する箇所特定情報、およびネガティブな種類の音声であることを特定する指示をユーザから受け付ける受付部と、前記受付部が受け付けた箇所特定情報である元情報を取得する元情報取得部と、前記元情報により特定される箇所の前の音声情報のうちの少なくとも一部である前半音声情報と、前記元情報により特定される箇所の後の音声情報のうちの少なくとも一部である後半音声情報とを取得する部分音声情報取得部と、前記前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ前記ネガティブな種類の音声であることを特定する指示に対応付いていない後半音声情報から１以上の特徴量である第二種特徴量群を取得する特徴量取得部と、前記第一種特徴量群とネガティブな音声であることを示す第一種類情報とを有する情報、および前記第二種特徴量群とポジティブな音声であることを示す第二種類情報とを有する情報を用いて、機械学習のアルゴリズムにより、少なくとも第一種の音声情報と第二種の音声情報とを区別可能な分類器である分類情報を構成する分類情報構成部と、前記分類情報を蓄積する分類情報蓄積部として機能させるためのプログラムである。

（実施の形態２）

本実施の形態において、実施の形態１との差異は、部分音声情報を取得する場合に、音声認識技術と、自然言語処理技術を用いる点である。なお、部分音声情報を取得した後の分類情報を構成する処理は、実施の形態１で説明した処理と同様である。

本実施の形態における分類情報生成装置Ｂの概念図は、符号を除いて、図１と同じである。図１０は、本実施の形態における分類情報生成装置Ｂのブロック図である。

分類情報生成装置Ｂは、格納部５、受付部２、処理部６、および出力部４を備える。格納部５は、音声情報格納部１１、分類情報格納部１２、および辞書５３を備える。処理部６は、元情報取得部６１、部分音声情報取得部６２、特徴量取得部３４、および分類情報構成部３５を備える。元情報取得部６１は、音声認識手段６１１、および用語取得手段６１２を備える。

格納部５には、各種の情報が格納される。各種の情報とは、例えば、音声情報、分類情報、後述する辞書の情報である。

辞書５３は、種類情報と１以上の用語との対応を管理する。辞書５３は、例えば、種類情報と用語との組を１または２組以上、有する。辞書５３は、例えば、２以上の各種類情報ごとに、１以上の用語を格納している。例えば、ネガティブである第一種類情報に対応付けて「駄目」「動かない」「不良品」などが格納されており、ポジティブである第二種類情報に対応付けて「分かりました」「良い」「すばらしい」などが格納されている。

処理部６は、各種の処理を行う。各種の処理とは、例えば、処理部６、元情報取得部６１、部分音声情報取得部６２、特徴量取得部３４、分類情報構成部３５、音声認識手段６１１、用語取得手段６１２が行う処理である。

元情報取得部６１は、元情報を取得する。元情報は、音声情報から取得される特徴量以外の情報である。元情報は、２種類以上の音声情報の種類のうちの少なくとも一つの種類の部分音声情報を音声情報の中から切り出す際に使用される情報である。元情報は、ここでは、１以上の用語である。元情報は、例えば、辞書５３に格納されている用語である。

音声認識手段６１１は、音声情報に対して音声認識し、テキストを取得する。なお、音声認識手段６１１の処理は公知技術であるので、詳細な説明を省略する。

用語取得手段６１２は、テキストの中の１以上の用語を取得する。用語取得手段６１２は、取得した用語を、用語が取得される元になった音声情報の箇所に対応付ける。

用語取得手段６１２は、例えば、テキストを形態素解析し、１以上の自立語を取得し、当該自立語を、当該自立語を取得する元になった音声情報の箇所に対応付ける。

部分音声情報取得部６２は、元情報を用いて、音声情報格納部１１の音声情報から、少なくとも１種類以上の音声情報である部分音声情報を取得する。

部分音声情報取得部６２は、用語取得手段６１２が取得した１以上の各用語を、用語と種類情報との対応を示す辞書５３を参照し、各用語に対する種類情報を取得する。なお、通常、用語取得手段６１２が取得した１以上の用語のうちの一部の用語が種類情報に対応する。部分音声情報取得部６２は、例えば、用語取得手段６１２が取得した１以上の各用語をキーとして辞書５３を検索し、各用語と対になる種類情報を辞書５３から取得し、各用途と取得した種類情報とを対応付ける。

そして、部分音声情報取得部６２は、用語取得手段６１２が取得した１以上の各用語に対応する音声の出現箇所を用いて、取得した種類情報に対応する部分音声情報を音声情報から取得する。なお、用語の音声における出現箇所は、音声情報の中の用語が対応付いている箇所である。種類情報に対応する部分音声情報とは、例えば、用語に対応する音声の出現箇所を含み、当該出現箇所の前後閾値以内の時間の音声情報である。また、種類情報に対応する部分音声情報とは、例えば、一の種類情報に対応する用語に対応する出現箇所から、一の種類情報とは異なる他の種類情報に対応する用語に対応する出現箇所の前までの音声情報である。その他、種類情報に対応する部分音声情報の、音声情報の中での範囲は問わない。

部分音声情報取得部６２は、例えば、種類情報「ネガティブ」と対になる用語が連続する箇所に対応する部分音声情報を、種類情報「ネガティブ」に対応付けて取得する。また、部分音声情報取得部６２は、例えば、種類情報「ポジティブ」と対になる用語が連続する箇所に対応する部分音声情報を、種類情報「ポジティブ」に対応付けて取得する。

また、部分音声情報取得部６２は、例えば、種類情報「ネガティブ」と対になる用語が出現する箇所の前後閾値の時間の幅の部分音声情報を、種類情報「ネガティブ」に対応付けて取得する。また、部分音声情報取得部６２は、例えば、種類情報「ポジティブ」と対になる用語が出現する箇所の前後閾値の時間の幅の部分音声情報を、種類情報「ポジティブ」に対応付けて取得する。

格納部５、および辞書５３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

格納部５等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部５等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部５で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部５等で記憶されるようになってもよい。

処理部６、元情報取得部６１、部分音声情報取得部６２、音声認識手段６１１、および用語取得手段６１２は、通常、ＭＰＵやメモリ等から実現され得る。分類情報構成部３５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、分類情報生成装置Ｂの動作例について、図１１のフローチャートを用いて説明する。図１１において、例えば、１または２以上の第一ユーザの多数の音声情報が音声情報格納部１１に格納されている、とする。また、図１１のフローチャートにおいて、図３のフローチャートのステップと同一のステップについて、説明を省略する。

（ステップＳ１１０１）処理部６は、カウンタｉに１を代入する。

（ステップＳ１１０２）処理部６は、ｉ番目の音声情報が音声情報格納部１１に存在するか否かを判断する。ｉ番目の音声情報が存在する場合はステップＳ１１０３に行き、存在しない場合はステップＳ１１１２に行く。

（ステップＳ１１０３）音声認識手段６１１は、ｉ番目の音声情報を音声認識し、１以上の用語を有するテキストを構成する。

（ステップＳ１１０４）用語取得手段６１２は、ステップＳ１１０３で取得されたテキストを形態素解析し、当該テキストの中の１以上の用語を取得し、当該用語を取得する元になった音声情報の箇所に対応付ける。

（ステップＳ１１０５）部分音声情報取得部６２は、カウンタｊに１を代入する。

（ステップＳ１１０６）部分音声情報取得部６２は、ステップＳ１１０４で取得された用語のうち、ｊ番目の用語が存在するか否かを判断する。ｊ番目の用語が存在する場合はステップＳ１１０７に行き、ｊ番目の用語が存在しない場合はステップＳ１１１１に行く。

（ステップＳ１１０７）部分音声情報取得部６２は、ｊ番目の用語が辞書５３に存在するか否かを判断する。ｊ番目の用語が辞書５３に存在する場合はステップＳ１１０８に行き、存在しない場合はステップＳ１１１０に行く。

（ステップＳ１１０８）部分音声情報取得部６２は、ｊ番目の用語に対応する種類情報を辞書５３から取得する。

（ステップＳ１１０９）部分音声情報取得部６２は、ステップＳ１１０８で取得した種類情報を、ｊ番目の用語に対応付ける。なお、ｊ番目の用語に対応付けることは、ｊ番目の用語に対応する音声情報の箇所に対応付けることである。

（ステップＳ１１１０）部分音声情報取得部６２は、カウンタｊを１、インクリメントする。ステップＳ１１０６に戻る。

（ステップＳ１１１１）部分音声情報取得部６２は、カウンタｉを１、インクリメントする。ステップＳ１１０２に戻る。

（ステップＳ１１１２）部分音声情報取得部６２は、カウンタｉに１を代入する。

（ステップＳ１１１３）部分音声情報取得部６２は、ｉ番目の音声情報が存在するか否かを判断する。ｉ番目の音声情報が存在する場合はステップＳ１１１４に行き、存在しない場合はステップＳ３１１に行く。

（ステップＳ１１１４）部分音声情報取得部６２は、カウンタｊに１を代入する。

（ステップＳ１１１５）部分音声情報取得部６２は、ｉ番目の音声情報に対応付いているｊ番目の種類情報が存在するか否かを判断する。ｊ番目の種類情報が存在する場合はステップＳ１１１６に行き、存在しない場合はステップＳ１１１８に行く。なお、音声情報に対応付いている種類情報は、音声情報に対応付いている用語に対応付いている種類情報でも良い。

（ステップＳ１１１６）部分音声情報取得部６２は、ｉ番目の音声情報から、種類情報が対応付いている箇所の部分音声情報を取得する。そして、部分音声情報取得部６２は、取得した部分音声情報をｊ番目の種類情報に対応付ける。なお、種類情報が対応付いている箇所の部分音声情報とは、種類情報が対応付いている箇所を含む部分音声情報である。種類情報が対応付いている箇所の部分音声情報とは、例えば、種類情報が対応付いている箇所を含み、当該箇所の前後閾値以内の時間の音声情報である。

（ステップＳ１１１７）部分音声情報取得部６２は、カウンタｊを１、インクリメントする。ステップＳ１１１５に戻る。

（ステップＳ１１１８）部分音声情報取得部６２は、カウンタｉを１、インクリメントする。ステップＳ１１１３に戻る。

なお、図１１のフローチャートにおいて、音声受付部２１が音声情報を受け付けた場合に、概ねリアルタイムに部分音声情報の取得処理、分類情報を構成する処理のうちの１以上の処理を行っても良い。

また、本実施の形態によれば、音声認識技術および自然言語処理技術を用いて、音声情報を適切に分類できる分類情報を生成できる。

なお、本実施の形態における分類情報生成装置Ｂを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、例えば、発話された音声の情報である音声情報が格納される音声情報格納部にアクセス可能なコンピュータを、２種類以上の音声情報の種類のうちの少なくとも一つの種類の部分音声情報を音声情報の中から切り出す際に使用される情報であり、前記音声情報から取得される特徴量以外の情報である元情報を取得する元情報取得部と、前記元情報を用いて、前記音声情報格納部の音声情報から、少なくとも１種類以上の音声情報である部分音声情報を取得する部分音声情報取得部と、前記部分音声情報から音声の１以上の特徴量を取得する特徴量取得部と、前記１以上の特徴量を用いて、音声情報の種類を特定する際に使用される分類情報を構成する分類情報構成部と、前記分類情報を蓄積する分類情報蓄積部として機能させるためのプログラムである。

また、上記プログラムにおいて、前記元情報取得部は、前記音声情報に対して音声認識し、テキストを取得する音声認識手段と、前記テキストの中の１以上の用語を取得する用語取得手段とを具備し、前記部分音声情報取得部は、前記用語取得手段が取得した１以上の各用語を、用語と種類情報との対応を示す辞書に適用し、用語に対する種類情報を取得し、当該用語の音声における出現箇所を用いて、前記用語に対する種類情報に対応する部分音声情報を前記音声情報から取得するものとして、コンピュータを機能させるプログラムであることは好適である。

（実施の形態３）

本実施の形態において、分類情報を用いて、受け付けた音声情報に対して、音声情報の種類を取得し、出力する感情状態推定装置について説明する。

図１２は、本実施の形態における感情状態推定装置Ｃのブロック図である。

感情状態推定装置Ｃは、格納部１、受付部２、処理部７、出力部８を備える。格納部１は、音声情報格納部１１、および分類情報格納部１２を備える。受付部２は、音声受付部２１、およびユーザ受付部２２を備える。処理部７は、特徴量取得部３４、および種類情報取得部７１を備える。出力部８は、種類情報出力部８１を備える。

格納部１の分類情報格納部１２には、分類情報が格納される。分類情報格納部１２には、分類情報生成装置Ａまたは分類情報生成装置Ｂが取得した分類情報が格納されていることが好適である。ただし、分類情報格納部１２に、分類情報生成装置Ａまたは分類情報生成装置Ｂが構成していない分類情報が格納されていても良い。

処理部７は、各種の処理を行う。各種の処理とは、例えば、特徴量取得部３４、種類情報取得部７１が行う処理である。

特徴量取得部３４は、音声受付部２１が受け付けた音声情報から音声の１以上の特徴量を取得する。特徴量取得部３４は、格納部１の音声情報から音声の１以上の特徴量を取得しても良い。

種類情報取得部７１は、特徴量取得部３４が取得した１以上の特徴量である特徴量群を、分類情報格納部１２の分類情報に適用し、音声情報の種類を示す種類情報を取得する。かかる分類情報は、分類情報生成装置Ａまたは分類情報生成装置Ｂが取得した分類情報であることは好適でさる。

種類情報取得部７１は、例えば、機械学習のアルゴリズムにより、特徴量取得部３４が取得した特徴量群を分類情報に適用し、種類情報を取得する。機械学習のアルゴリズムは、例えば、深層学習、決定木、ランダムフォレスト、ＳＶＭ等、問わない。

種類情報取得部７１は、例えば、特徴量取得部３４が取得した特徴量群に最も近似する特徴量群を、分類情報である対応表が有する２以上の特徴量群から決定し、当該最も近似する特徴量群と対になる種類情報を分類情報から取得する。種類情報取得部７１は、例えば、特徴量取得部３４が取得した特徴量群のベクトルと、対応表が有する対応情報に含まれる２以上の各特徴量群のベクトルとの距離を算出し、距離が最も小さい特徴量群を決定し、当該特徴量群と対になる種類情報を対応情報から取得する。

種類情報取得部７１は、例えば、特徴量取得部３４が取得した特徴量群であるベクトルに最も近似する代表ベクトルを、分類情報が有する２以上の代表ベクトルから決定し、当該最も近似する代表ベクトルと対になる種類情報を分類情報から取得する。種類情報取得部７１は、例えば、特徴量取得部３４が取得した特徴量群のベクトルと、分類情報が有する２以上の各代表ベクトルとの距離を算出し、距離が最も小さい代表ベクトルを決定し、当該代表ベクトルと対になる種類情報を分類情報から取得する。

なお、２つのベクトルの距離を算出する処理は公知技術であるので、詳細な説明を省略する。

出力部８は、各種の情報を出力する。各種の情報とは、例えば、種類情報である。種類情報出力部８１は、種類情報取得部７１が取得した種類情報を出力する。なお、出力とは、例えば、ディスプレイ等の表示デバイスへの表示、記録媒体への蓄積である、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

処理部７、および種類情報取得部７１は、通常、ＭＰＵやメモリ等から実現され得る。処理部７等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部８、および種類情報出力部８１は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部８等は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、感情状態推定装置Ｃの動作例について、図１３のフローチャートを用いて説明する。

（ステップＳ１３０１）受付部２は、音声情報を受け付けたか否かを判断する。音声情報を受け付けた場合はステップＳ１３０２に行き、音声情報を受け付けない場合はステップＳ１３０１に戻る。

（ステップＳ１３０２）処理部７は、ステップＳ１３０１で受け付けられた音声情報を、格納部１に少なくとも一時蓄積する。なお、出力部８は、ステップＳ１３０１で受け付けられた音声情報を出力することは好適である。

（ステップＳ１３０３）処理部７は、格納部１に蓄積された音声情報を分類するタイミングであるか否かを判断する。分類するタイミングであればステップＳ１３０４に行き、分類するタイミングでなければステップＳ１３０１に戻る。音声情報を分類するタイミングは、常時でも良いし、予め決められた時間間隔でも良いし、ユーザの指示の受け付けをトリガーする等しても良い。予め決められた時間間隔は、例えば、５秒、１０秒、２０秒、３０秒、１分等である。

（ステップＳ１３０４）特徴量取得部３４は、分類対象の音声情報を格納部１から取得する。

（ステップＳ１３０５）特徴量取得部３４は、ステップＳ１３０４で取得した音声情報から１以上の特徴量を取得する。

（ステップＳ１３０６）種類情報取得部７１は、ステップＳ１３０５で取得した１以上の特徴量を格納部１の分類情報に適用し、音声情報の種類情報を取得する。種類情報取得部７１は、例えば、機械学習のアルゴリズムで、ステップＳ１３０５で取得した１以上の特徴量を格納部１の分類器に適用し、種類情報を取得する。なお、分類器は、分類情報と言っても良い。また、種類情報取得部７１は、図１４に示すような分類処理により種類情報を取得しても良い。

（ステップＳ１３０７）種類情報出力部８１は、ステップＳ１３０６で取得された種類情報を出力する。ステップＳ１３０１に戻る。

なお、図１３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

また、ステップＳ１３０７において、種類情報出力部８１は、予め決められた条件を満たす場合のみ、ステップＳ１３０６で取得された種類情報を出力しても良い。予め決められた条件とは、例えば、直前に取得した種類情報と、ステップＳ１３０６で取得した種類情報とが異なる情報であることである。

次に、ステップＳ１３０６の分類処理について、図１４のフローチャートを用いて説明する。

（ステップＳ１４０１）種類情報取得部７１は、カウンタｉに１を代入する。

（ステップＳ１４０２）種類情報取得部７１は、分類情報の中に、ｉ番目の対応情報が存在するか否かを判断する。ｉ番目の対応情報が存在する場合はステップＳ１４０３に行き、ｉ番目の対応情報が存在しない場合はステップＳ１４０５に行く。

（ステップＳ１４０３）種類情報取得部７１は、ステップＳ１３０５で取得された１以上の特徴量であるベクトルと、ｉ番目の対応情報が有するベクトルとの距離を算出し、図示しないバッファに一時蓄積する。なお、ｉ番目の対応情報が有するベクトルは、例えば、代表ベクトルまたは音声情報から取得された特徴量群のベクトルである。

（ステップＳ１４０４）種類情報取得部７１は、カウンタｉを１、インクリメントする。ステップＳ１４０２に戻る。

（ステップＳ１４０５）種類情報取得部７１は、ステップＳ１４０３で算出された距離の中で最も小さい距離のベクトルを決定する。

（ステップＳ１４０６）種類情報取得部７１は、ステップＳ１４０５で決定したベクトルに対応する種類情報を対応情報から取得する。上位処理にリターンする。

以下、本実施の形態における感情状態推定装置Ｃの具体的な動作について説明する。感情状態推定装置Ｃを含む情報システムの概念図は図１５である。図１５において、商品に対する苦情を言おうと、第一ユーザ「Ａ山Ｂ夫」が電話機Ｘを用いて、当該商品を販売する企業のお客様相談室のオペレータである第二ユーザに電話をかけている。そして、Ａ山Ｂ夫が発話した音声情報を含む音声情報（第二ユーザの音声情報を含んでも良い）が感情状態推定装置Ｃに送付される。そして、感情状態推定装置Ｃは、音声情報に含まれる部分音声情報に対して処理を行い、種類情報を取得し、当該種類情報を端末装置Ｙに送付する。そして、端末装置Ｙは、当該種類情報を出力する。

今、格納部１の分類情報格納部１２には、分類情報生成装置Ａまたは分類情報生成装置Ｂが取得した分類情報が格納されている、とする。

そして、商品に対する苦情を言う第一ユーザ「Ａ山Ｂ夫」が第二ユーザに電話をかけた、とする。そして、まず、第一ユーザが第二ユーザに商品の苦情を、怒った様子で、電話で伝えた、とする。かかる段階で、第一ユーザが発した音声の音声情報は感情状態推定装置Ｃに送信され、感情状態推定装置Ｃの音声受付部２１は、当該音声情報を受信する。そして、出力部４は、当該音声情報を音声情報格納部１１に蓄積する。

そして、ここでは、常時、受け付けられた音声情報を分類しようとする、とする。つまり、音声情報が受け付けられると直ちに、感情状態推定装置Ｃは、音声情報に対する種類情報を取得しようとする。なお、かかる処理をリアルタイム処理と言うこととする。

そして、特徴量取得部３４は、分類対象の音声情報を音声情報格納部１１から取得する。分類対象の音声情報は、受け付けられた最新の音声情報を含む、当該音声情報から予め決められた時間の前までの予め決められた時間の分の音声情報を取得する。

次に、特徴量取得部３４は、取得した音声情報から１以上の特徴量を取得する。

次に、種類情報取得部７１は、取得した１以上の特徴量を分類情報格納部１２の分類情報に適用し、音声情報の種類情報を取得する。

次に、種類情報出力部８１は、取得された種類情報が直前に取得した種類情報と異なっているか否かを判断し、異なっていれば、取得した種類情報が出力する。そして、かかる場合、最新の種類情報を図示しないバッファに蓄積する。

なお、種類情報出力部８１は、当該種類情報を端末装置Ｙに送信しても良い。そして、端末装置Ｙは、種類情報を受信し、出力しても良い。かかる出力例は、図１６である。

また、かかる種類情報を見た第二ユーザは、感情状態推定装置Ｃの判断結果が異なる場合、変更指示を入力しても良い。変更指示の入力は、例えば、ボタン１６０１または１６０２の押下である。なお、例えば、１６０２の「ポジティブ」の種類情報が出力された場合であり、第二ユーザが、第一ユーザはネガティブである、と感じた場合には、第二ユーザは、ボタン１６０２を押下することにより、変更指示を入力する。

そして、変更指示は、上述した分類情報生成装置Ａまたは分類情報生成装置Ｂに送信され、分類情報生成装置Ａまたは分類情報生成装置Ｂは、上述したように変更指示に対応する処理を行っても良い。変更指示に対応する処理の結果、分類情報を再構築しても良い。

以上、本実施の形態によれば、分類情報を用いて、音声情報を２種類以上に適切に分類できる。

また、本実施の形態によれば、分類情報を用いて、機械学習のアルゴリズムにより音声情報を２種類以上に適切に分類できる。

また、本実施の形態によれば、ユーザの判断結果を用いて、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できる。

なお、本実施の形態における感情状態推定装置Ｃを実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声情報を受け付ける音声受付部と、前記音声受付部が受け付けた音声情報から音声の１以上の特徴量を取得する特徴量取得部と、前記１以上の特徴量を、分類情報に適用し、音声情報の種類を示す種類情報を取得する種類情報取得部と、前記種類情報を出力する種類情報出力部として機能させるプログラムである。なお、上記分類情報は、分類情報生成装置Ａまたは分類情報生成装置Ｂが取得した分類情報であることは好適である。

また、図１７は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の分類情報生成装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１７は、このコンピュータシステム３００の概観図であり、図１８は、システム３００のブロック図である。

図１７において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図１８において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＣＤ−ＲＯＭドライブ３０１２等に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の分類情報生成装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の分類情報生成装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる分類情報生成装置は、発話された音声の音声情報から、音声情報を２種類以上に適切に分類できる分類情報を生成できるという効果を有し、分類情報生成装置等として有用である。

Ａ、Ｂ分類情報生成装置
Ｃ感情状態推定装置
１、５格納部
２受付部
３、６、７処理部
４、８出力部
１１音声情報格納部
１２分類情報格納部
２１音声受付部
２２ユーザ受付部
３１、６１元情報取得部
３２種類情報付加部
３３、６２部分音声情報取得部
３４特徴量取得部
３５分類情報構成部
４１分類情報蓄積部
５３辞書
７１種類情報取得部
８１種類情報出力部
６１１音声認識手段
６１２用語取得手段

Claims

対話された音声の情報である音声情報の出力中に、当該音声情報の一部分である部分音声情報を取得する際の箇所を特定する箇所特定情報、およびネガティブな種類の音声であることを特定する指示をユーザから受け付ける受付部と、
前記受付部が受け付けた箇所特定情報である元情報を取得する元情報取得部と、
前記元情報により特定される箇所の前の音声情報のうちの少なくとも一部を含む前半音声情報と、前記元情報により特定される箇所の後の音声情報のうちの少なくとも一部を含む後半音声情報とを取得する部分音声情報取得部と、
前記前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ前記ネガティブな種類の音声であることを特定する指示に対応付いていない後半音声情報から１以上の特徴量である第二種特徴量群を取得する特徴量取得部と、
前記第一種特徴量群とネガティブな音声であることを示す第一種類情報とを有する情報、および前記第二種特徴量群とポジティブな音声であることを示す第二種類情報とを有する情報を用いて、機械学習のアルゴリズムにより、少なくとも第一種の音声情報と第二種の音声情報とを区別可能な分類器である分類情報を構成する分類情報構成部と、
前記分類情報を蓄積する分類情報蓄積部とを具備する分類情報生成装置。
受付部と、元情報取得部と、部分音声情報取得部と、特徴量取得部と、分類情報構成部と、分類情報蓄積部とにより実現される分類情報生成方法であって、
前記受付部が、対話された音声の情報である音声情報の出力中に、当該音声情報の一部分である部分音声情報を取得する際の箇所を特定する箇所特定情報、およびネガティブな種類の音声であることを特定する指示をユーザから受け付ける受付ステップと、
前記元情報取得部が、前記受付ステップで受け付けられた箇所特定情報である元情報を取得する元情報取得ステップと、
前記部分音声情報取得部が、前記元情報により特定される箇所の前の音声情報のうちの少なくとも一部を含む前半音声情報と、前記元情報により特定される箇所の後の音声情報のうちの少なくとも一部を含む後半音声情報とを取得する部分音声情報取得ステップと、
前記特徴量取得部が、前記前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ前記ネガティブな種類の音声であることを特定する指示に対応付いていない後半音声情報から１以上の特徴量である第二種特徴量群を取得する特徴量取得ステップと、
前記分類情報構成部が、前記第一種特徴量群とネガティブな音声であることを示す第一種類情報とを有する情報、および前記第二種特徴量群とポジティブな音声であることを示す第二種類情報とを有する情報を用いて、機械学習のアルゴリズムにより、少なくとも第一種の音声情報と第二種の音声情報とを区別可能な分類器である分類情報を構成する分類情報構成ステップと、
前記分類情報蓄積部が、前記分類情報を蓄積する分類情報蓄積ステップとを具備する分類情報生成方法。
コンピュータを、
対話された音声の情報である音声情報の出力中に、当該音声情報の一部分である部分音声情報を取得する際の箇所を特定する箇所特定情報、およびネガティブな種類の音声であることを特定する指示をユーザから受け付ける受付部と、
前記受付部が受け付けた箇所特定情報である元情報を取得する元情報取得部と、
前記元情報により特定される箇所の前の音声情報のうちの少なくとも一部を含む前半音声情報と、前記元情報により特定される箇所の後の音声情報のうちの少なくとも一部を含む後半音声情報とを取得する部分音声情報取得部と、
前記前半音声情報から１以上の特徴量である第一種特徴量群を取得し、かつ前記ネガティブな種類の音声であることを特定する指示に対応付いていない後半音声情報から１以上の特徴量である第二種特徴量群を取得する特徴量取得部と、
前記第一種特徴量群とネガティブな音声であることを示す第一種類情報とを有する情報、および前記第二種特徴量群とポジティブな音声であることを示す第二種類情報とを有する情報を用いて、機械学習のアルゴリズムにより、少なくとも第一種の音声情報と第二種の音声情報とを区別可能な分類器である分類情報を構成する分類情報構成部と、
前記分類情報を蓄積する分類情報蓄積部として機能させるためのプログラム。