JP6763103B1

JP6763103B1 - 話者間相性判定装置、話者間相性判定方法およびプログラム

Info

Publication number: JP6763103B1
Application number: JP2020087227A
Authority: JP
Inventors: 一仁横内
Original assignee: Evoice
Current assignee: Evoice
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2020-09-30
Anticipated expiration: 2040-05-19
Also published as: JP2021182067A

Abstract

【課題】バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者間の相性を判定する装置、方法及びプログラムを提供する。【解決手段】音声処理システムにおいて、話者相性判定装置である音声処理サーバは、話者により発話された音声データを解析し、複数のセグメントが配置され、かつ、複数のセグメントの夫々が複数のセルに分割され、複数のセルの夫々が異なる性格型に対応するマトリクスを記憶し、解析結果に基づいて、記憶されるマトリクス上のセルを選択し、複数の話者について、それぞれ選択されたセルの間のマトリクス上の相対距離に基づいて、複数の話者の間の相性を判定する。【選択図】図３

Description

本発明は、話者間相性判定装置、話者間相性判定方法およびプログラムに関する。より詳細には、本発明は、話者の音声を取得し、取得された音声に基づき、話者間の相性を判定するための技術に関する。

人間の性格を複数の性格型のいずれかに分類する技術は、例えば、営業や販売等における接客、人事評価、および採用等、多様なビジネスコミュニケーションに応用されている。

例えば、１９６８年にデビッド・メリルにより提唱されたソーシャルスタイル理論によれば、感情表現度および自己主張度の２つの尺度を用いて、人間の性格を、アナリティカル（分析型）、ドライビング（前進型／実行型）、エミアブル（温和型）、およびエクスプレッシブ（直感型）の４つの性格型に分類することができる。

性格型の分類において、典型的には、性格型分類対象者に質問票を提示し、対象者に質問票（診断票）に記載された質問への回答を入力させ、入力された回答に基づいて感情表現度および自己主張度の２つの尺度についてのスコアをそれぞれ算出する。これにより、４つの性格型のいずれかへの分類を実行することができる。

顧客と、事業者側の接客担当者とのそれぞれの性格型を把握し、把握された性格型に応じた接客を提供することで、ビジネスコミュニケーションの円滑化が期待できる。

例えば、特許文献１は、Ｗｅｂコミュニケーションサービスに対して所定のアカウントから所定期間内に投稿された複数の投稿データに含まれる語句に基づいて、当該所定のアカウントのユーザの性格を診断するとともに、指定された２つのアカウントのユーザの性格の組み合わせから、ユーザ同士の相性を診断する技術を開示する。

具体的には、特許文献１の診断サーバは、所定のアカウントの複数の投稿データを形態素解析し、予め記憶されている辞書に含まれる特徴語の有無、出現数、投稿頻度、投稿時間帯等に基づく特徴量を要素とする特徴量ベクトルを抽出し、抽出された特徴量ベクトルを所定の分類器に入力してエゴグラムの各パラメータ（ＣＰ，ＮＰ，Ａ，ＦＣ，ＡＣ）のスコアを導出し、導出されたスコアに応じてユーザを複数の性格のいずれかに分類する。特許文献１の診断サーバはまた、ユーザが分類される性格の組み合わせ毎に相性を示す識別データを記憶する相性診断テーブル、および相性を示す識別データのそれぞれについて、相性の良さを示すスコア、診断結果に対応する文章および画像データを記憶する相性定義テーブルを参照して、指定された２つのアカウントのユーザ同士の相性を診断する。

特開２０１３−１９６４２５号公報

しかしながら、性格型分類対象者に対して提示した質問票への回答を入力として性格型を分類する手法によれば、無意識に自分をよく見せようとしたり誇張しようとしたりするバイアスが回答に作用してしまう。このため、真の性格を示す回答が必ずしも得られないおそれがある。
また、Ｗｅｂコミュニケーションサービスへの投稿データに含まれる特徴語から抽出された特徴量ベクトルから性格型を分類する手法によれば、投稿時点での一時的感情を推定することはできても、投稿者の恒常的性格を推定することは困難である。同時に、投稿データから抽出すべき特徴語を予め辞書に適切に定義しておかない限り、性格型への分類における精度が低下してしまうため、労力を要するものであった。

このように、従来は、性格型分類対象者からの入力にバイアスを作用させることなく、高精度に性格型を分類することが困難であった。これに伴って、性格型分類対象者同士の相性も、分類された性格型同士の組み合わせで決定されるため、高精度に判定することが困難であり、十分な有用性を提供するものとはいえなかった。

本発明は、上記課題に鑑みてなされたものであり、その目的は、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者間の相性を判定することが可能な話者間相性判定装置、話者間相性判定方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある態様によれば、話者により発話された音声データを解析する音声解析部と、複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶部と、前記音声解析部による解析結果に基づいて、前記マトリクス記憶部により記憶される前記マトリクス上のセルを選択するセル選択部と、複数の話者について、前記セル選択部によりそれぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定する相性判定部と、を備える話者間相性判定装置が提供される。

前記相性判定部は、前記セル選択部によりそれぞれ選択されたセルの間の前記マトリクスの縦方向および横方向の経路長から、前記相対距離を算出してよい。

前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクスに配置された異なるセグメントに位置する場合、所定の値を前記相対距離に付加して、前記相対距離を算出してよい。

前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクス上で対角線上に配置される異なるセグメントに位置する場合、前記マトリクス上で縦方向または横方向に隣接して配置される異なるセグメントに位置する場合より、大きい値を前記相対距離に付加して、前記相対距離を算出してよい。

前記話者間相性判定装置は、前記相対距離に付加すべき前記所定の値を、前記複数のセルがそれぞれ属する前記セグメントの前記マトリクス内の配置に応じて変更する閾値変更部をさらに備えてよい。

前記話者間相性判定装置は、前記音声解析部による解析に先立って、前記音声データの音声波形に基づいて、前記音声データから有音区間を抽出し、抽出された前記有音区間を、所定の時間長以上となるまで繋ぎ合わせる前処理部をさらに備えてよい。

前記話者間相性判定装置は、前記相性判定部により判定された前記相性を、前記セル選択部により選択されたセルに対応する性格型と対応付けて、出力装置に出力させる出力部をさらに備えてよい。

前記話者間相性判定装置は、前記マトリクスの各セルに属性ごとに異なる適性値を分布させた複数の適性マトリクスを記憶する適性マトリクス記憶部と、前記適性マトリクス記憶部に記憶される前記複数の適性マトリクスのうち、前記話者の前記属性に対応する適性マトリクスを参照して、前記セル選択部により選択されたセルの前記マトリクス上の位置に基づいて、前記話者の適性を判定する適性判定部と、をさらに備えてよい。

前記話者間相性判定装置は、前記適性判定部により判定された前記適性を、前記セル選択部により選択されたセルに対応する性格型と対応付けて、出力装置に出力させる適性出力部をさらに備えてよい。

本発明の他の態様によれば、話者により発話された音声データを解析する音声解析部と、複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶部と、前記マトリクス記憶部に記憶される前記マトリクスの各セルに、属性ごとに異なる適性値を分布させた複数の適性マトリクスを記憶する適性マトリクス記憶部と、前記音声解析部による解析結果に基づいて、前記マトリクス記憶部により記憶される前記マトリクス上のセルを選択するセル選択部と、前記適性マトリクス記憶部に記憶される前記複数の適性マトリクスのうち、前記話者の前記属性に対応する適性マトリクスを参照して、前記セル選択部により選択されたセルの前記マトリクス上の位置に基づいて、前記話者の適性を判定する適性判定部と、を備える話者適性判定装置が提供される。

本発明の他の態様によれば、話者間相性判定装置が実行する話者間相性判定方法であって、話者により発話された音声データを解析するステップと、複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するステップと、前記音声データの解析結果に基づいて、記憶される前記マトリクス上のセルを選択するステップと、複数の話者について、それぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定するステップと、を含むことを特徴とする話者間相性判定方法が提供される。

本発明の他の態様によれば、話者間相性判定処理をコンピュータに実行させるための話者間相性判定プログラムであって、該プログラムは、前記コンピュータに、話者により発話された音声データを解析する音声解析処理と、複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶処理と、前記音声解析処理による解析結果に基づいて、前記マトリクス記憶処理により記憶される前記マトリクス上のセルを選択するセル選択処理と、複数の話者について、前記セル選択部によりそれぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定する相性判定処理部と、を含む処理を実行させるためのものである、ことを特徴とする話者間相性判定プログラムが提供される。

本発明に係る話者間相性判定装置、話者間相性判定方法およびプログラムによれば、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者間の相性を判定することが可能となる。よって、話者の性格および話者間の相性に基づいたコミュニケーションの円滑化に資する。

本発明の実施形態１に係る音声処理システムのネットワーク構成の一例を示す図である。図１の音声処理システムを構成する音声処理サーバの機能構成の一例を示すブロック図である。実施形態１に係る音声処理サーバが実行する話者間相性判定処理の処理フローの一例を示すフローチャートである。音声処理サーバの音声解析部が解析する音声データの音声波形からの有音区間の切り出しおよび繋ぎ合わせ（図３のＳ２）の一例を説明する図である。音声処理サーバの性格型分類部が性格型を決定するために参照する性格型マトリクスの構成の一例を示す模式図である。図５の性格型マトリクスの基準セルＲから他のセルへの相対距離算出の一例を説明する模式図である。図６で算出されたセル間の相対距離と相性とをマッピングする相性判定テーブルの構成の一例を示す図である。話者の性格判定および複数話者間の相性判定を提供するユーザインタフェースの一例（最初の発話録音中）を示す図である。話者の性格判定および複数話者間の相性判定を提供するユーザインタフェースの一例（性格判定ボタン押下時）を示す図である。話者の性格判定および複数話者間の相性判定を提供するユーザインタフェースの一例（性格判定結果出力時）を示す図である。話者の性格判定および複数話者間の相性判定を提供するユーザインタフェースの一例（相性判定ボタン押下時）を示す図である。話者の性格判定および複数話者間の相性判定を提供するユーザインタフェースの一例（相性判定結果出力時）を示す図である。実施形態２に係る音声処理サーバが実行する話者間相性判定処理の処理フローの一例を示すフローチャートである。実施形態２において性格型マトリクスを参照した職業適性の判定の一例を説明する模式図である。各実施形態における各装置のハードウエア構成の一例を示す図である。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。なお、以下に説明する実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正又は変更されるべきものであり、本発明は以下の実施形態に必ずしも限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

（実施形態１）
以下では、例えば、コールセンタ内に設置される１つまたは複数のＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）において、オペレータの音声、および電話網を介して集音される顧客の音声をそれぞれ録音して、音声処理サーバへ送信し、音声処理サーバにおいて、話者であるオペレータおよび顧客の性格をそれぞれ判定した上で、オペレータおよび顧客の間の相性を判定する一例を主として説明するが、本実施形態はこれに限定されない。

本実施形態は、直接あるいは各種ネットワークを介して集音される複数の話者の音声を処理可能な構成であればよく、例えば、商品やサービスのマーケティング、販売、人事管理、採用、マッチング等を含む、既知の話者の性格を属性として利用可能なあらゆるアプリケーションに応用することができる。

＜本実施形態の音声処理システムのネットワーク構成＞
図１は、本実施形態に係る音声処理システムのネットワーク構成の非限定的一例を示す図である。図１を参照して、音声処理システムは、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）１および３、ルータ６、および音声処理サーバ７を備える。ＰＣ１、３は、ネットワーク５、ルータ６、およびインターネット８を介して、音声処理サーバ７に接続される。

ＰＣ１、３は、それぞれ、マイクロフォン２、４に接続しまたはこれを内蔵する。ＰＣ１、３上では、例えば、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）のプロトコルで動作するＷｅｂＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）を介して、音声処理サーバ７と連携動作し、ＰＣ１、３の表示装置上にユーザインタフェースを提供するアプリケーションが稼働してよい。

ＰＣ１、３は、マイクロフォン２、４を介して直接集音された話者、例えば、オペレータ、の音声を記憶装置に記憶することができる。コールセンタにおいて、オペレータと通話すべき顧客の音声を集音する場合、オペレータの電話端末を収容するＰＢＸ（ＰｒｉｖａｔｅＢｒａｎｃｈｅＸｃｈａｎｇｅ）によりＰＳＴＮ（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）等の公衆電話回線交換網に回線交換接続して、顧客の電話端末からオペレータの電話端末まで搬送される音声を、ＰＢＸまたはオペレータの電話端末に分岐接続するＰＣにより集音すればよい。ＰＳＴＮに替えて、ＶｏＩＰ（ＶｏｉｃｅＯｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク等の音声パケット通信ネットワークを介して、顧客の電話端末からの音声を集音してもよい。

オペレータと顧客との間の通話を集音する場合、ＰＢＸから供給される呼情報から、インバウンド（顧客からの発話）またはアウトバウンド（オペレータからの発話）の極性を識別する話者識別情報を取得することができる。この話者識別情報を参照することにより、１通話内の顧客の発話とオペレータの発話とを必要に応じて個別或いは分離することができる。
なお、図１には２つのＰＣが図示されているが、本実施形態におけるＰＣの数はこれに限定されず、１つであっても、３つ以上であってもよい。

ネットワーク５は、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）等の通信規格に準拠する有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってよい。あるいは、ネットワーク５は、無線ネットワークで構成されてもよい。この無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）等の無線ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、Ｗｉ−Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ／３Ｇ／４Ｇ／５Ｇ等の無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む。なお、ネットワーク５は、各機器を相互に通信可能に接続できればよく、通信の規格、規模、構成は上記に限定されない。

ルータ６は、インターネット８の回線を、複数のＰＣ１、３に分配するハブ機能を備え、ＰＣ１、３に、インターネット８を介した音声処理サーバ７へのアクセスを提供する。
音声処理サーバ７は、ＰＣ１、３で集音された話者の音声を解析して、話者の性格を判定するとともに、複数の話者について判定された性格同士の相性を判定する音声処理を実行する。音声処理サーバ７により実行される本実施形態の音声処理の詳細は、図３〜図１２を参照して後述する。

なお、集音された話者の音声は、ＰＣ１、３の記憶装置に記憶されてよく、或いは、音声処理サーバ７の記憶装置に記憶されてもよい。また、集音された話者の音声は、アナログ音声として記憶されてよく、或いは、Ａ／Ｄ変換されて、デジタル音声として記憶されてもよい。デジタル音声として記憶する場合、供給されるアナログ音声の波形を電圧で表したものを所定のビット深度と所定のサンプリング周波数でサンプリングすることによりデジタル音声に変換すればよい。

なお、図１に示すネットワークおよびハードウエアの構成は非限定的一例に過ぎず、各装置およびデータベースを必要に応じて一体としてもよく、或いは各コンポーネントをＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅ）等の外部設備に設置してもよい。

＜音声処理サーバ７の機能構成例＞
図２は、本実施形態に係る音声処理サーバ７の機能構成の非限定的一例を示す図である。

図２に示す音声処理サーバ７の各機能モジュールのうち、ソフトウエアにより実現される機能については、各機能モジュールの機能を提供するためのプログラムがＲＯＭ等のメモリに記憶され、ＲＡＭに読み出してＣＰＵが実行することにより実現される。ハードウエアにより実現される機能については、例えば、所定のコンパイラを用いることで、各機能モジュールの機能を実現するためのプログラムからＦＰＧＡ上に自動的に専用回路を生成すればよい。ＦＰＧＡとは、ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙの略である。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウエアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。なお、図２に示した機能ブロックの構成は一例であり、複数の機能ブロックが１つの機能ブロックを構成するようにしてもよいし、いずれかの機能ブロックが複数の機能を行うブロックに分かれてもよい。

図２を参照して、音声処理サーバ７は、音声取得部１１、音声記憶部１２、音声解析部１３、性格型分類部１４、性格型記憶部１５、相性判定部１６、および出力部１７を備える。

音声取得部１１は、ＰＣ１、３から送信される話者の音声の音声ファイルを受信し、受信された音声ファイルを音声解析部１３に供給する。

本実施形態において、音声取得部１１は、音声解析の前処理として、音声ファイル中の話者の音声波形を走査して、有音区間を１単位の会話として切り出し、切り出された会話を所定の計測閾値以上となるまで繋ぎ合わせて、判定単位の音声データを生成して、音声記憶部１２に記憶し、および／または、音声解析部１３に供給してよい。音声取得部１２は、音声ファイル中の話者の音声波形を走査する前に、音声波形を適宜正規化してよい。代替的に、このような音声データの生成処理は、ＰＣ１、３において実行されてよい。

音声記憶部１２は、音声取得部１１により生成された判定単位の音声データを記憶する。音声記憶部１２はまた、ＰＣ１、３から送信される話者の音声を音声ファイルとして記憶してよい。音声記憶部１２は、音声処理サーバ７内に設けられてよく、或いは、ＮＡＳ（ＮｅｔｗｏｒｋＡｐｐｌｉａｎｃｅＳｔｏｒａｇｅ）等の大規模外部記憶装置上に設けられてもよい。

音声解析部１３は、音声取得部１１から供給される判定単位の音声データを解析して、話者の性格に関連する定量的指標を算出し、算出された定量的指標の値を、性格型分類部１４に供給する。

具体的には、本実施形態において、音声解析部１３は、音声取得部１１から供給される評価単位の会話中の音声波形の周波数スペクトルを時系列的に解析して、話者の発話の言語に依存することなく、また、特徴語を定義する辞書等を参照することなく、話者の性格に関連する定量的指標を算出する。
なお、音声解析部１３が出力する定量的指標は、話者の性格を推定し得る限り、任意の指標が用いられてよいが、本実施形態では、以下、自己主張度（積極性／慎重性）および感情表現度（論理性／感情性）の２軸で定量的指標の値を算出する例を説明する。

性格型分類部１４は、音声解析部１３から供給される定量的指標の値を、性格型マトリクス上にマッピングする。この性格型マトリクスは、縦軸に自己主張度（積極性／慎重性）、横軸に感情表現度（論理性／感情性）を有し、自己主張度および感情表現度のそれぞれの値に応じて４つのセグメントが配置されている。性格型マトリクスの４つのセグメントのそれぞれは、複数のセル、例えば、９つのセル、に分割されている。性格型分類部１５は、２つの定量的指標の値の組み合わせで示されるセルを、性格型マトリクスの複数のセルから選択し、選択されたセルを、当該話者について分類された性格型として、性格型記憶部１５に記憶する。この性格型マトリクスの詳細は、図５を参照して後述する。或いは、性格型分類部１５は、分類された性格型を、相性判定部１６に供給してもよい。

性格型記憶部１５は、性格型分類部１４により分類された話者の性格型を、当該話者を一意に識別する識別子、他の属性（例えば、性別、年齢層、住所エリア、職業分類等）と適宜対応付けて記憶する。

相性判定部１６は、指定された複数の話者の間の相性を判定して、判定された話者間の相性を出力部１７に供給する。
具体的には、本実施形態において、相性判定部１６は、性格型マトリクス上で、指定された話者それぞれについて選択されたセルの間の相対距離を算出し、算出されたセル間の相対距離の値から、指定された話者間の相性の程度を定量的に求める。この相性判定処理の詳細は、図６および図７を参照して後述する。

出力部１７は、性格型分類部１４により分類された話者の性格型を表示装置に出力する。出力部１７はさらに、相性判定部１６により判定された指定された話者間の相性を表示装置に出力する。出力先の表示装置は、ＰＣ１、３に設けられてよく、或いは、音声処理サーバ７や他のサーバ装置に適宜設けられてもよい。出力部１７は、分類された性格型および相性をより詳細に説明するメッセージや、推奨される応対を説明するメッセージを、出力結果とともに、表示装置に表示させてよい。

＜音声処理サーバ７による音声処理の詳細処理手順＞
図３は、音声処理サーバ７が実行する音声処理の詳細処理手順の一例を示すフローチャートである。
図３を参照して、Ｓ１で、音声処理サーバ７の音声取得部１１は、ＰＣ１、３から、ＰＣ１、３において集音および録音された話者の音声を取得する。音声取得部１１は、プッシュ型またはプル型でＰＣ１、３から適宜音声を受信してもよい。

音声取得部１１により取得される話者の音声は、特定の言語やコンテキストに従う必要がない。
本実施形態では、音声ファイルの音声波形の周波数スペクトルを非言語的に解析することで、話者を適切な性格型に分類するためのパラメータの値を導出する。このように、音声処理サーバ７は、集音された音声の言語やコンテキストに依存することなく、話者の音声を解析することができるため、性格や相性を判定すべき話者は、任意の内容で発話すればよい。発話を促すためには、例えば、「お名前と年代と性別をお話しください。」、「あなたの趣味や今興味があることをお話しください。」等のトリガメッセージをＰＣ１、３の表示装置上に出力し、録音ボタンの押下時に、話者により発話された応答音声をマイクロフォン２，４で集音して、ＰＣ１、３の記憶装置上に録音すればよい。

Ｓ２で、音声処理サーバ７の音声取得部１１は、Ｓ１で取得された話者の音声に対して解析前処理を実行する。具体的には、音声取得部１１は、計測閾値以上の長さの発話区間の音声を切り出して、切り出された音声を解析処理対象の音声データとして、音声記憶部１２に格納する。

図４は、音声取得部１１が実行する解析前処理としての音声切り出しおよび繋ぎ合わせ処理を説明する図である。
音声取得部１１は、録音された図４に示す話者の音声の音声波形を走査して、有音区間を検出して切り出す。なお、図４の音声波形について、ＰＣ１、３における集音の際に、録音された話者の音声波形の振幅の閾値を用いて、例えば、音声波形の振幅がマイクロフォンの最大音量の半分程度に収まるように、マイクロフォンの音量を調整してもよい。また、音声取得部１１は、音声波形を走査する前に、音声波形を適宜増幅することにより正規化してよい。

図４を参照して、音声取得部１１は、有音音量（振幅）の閾値を超えた位置（経過秒数）を検出し、検出された位置に対して、有音区間の開始を示す「Ｓ」をマークして記憶装置に記憶する。
音声取得部１１はまた、無音音量（振幅）の閾値を超えた位置（経過秒数）を検出し、検出された位置に対して、無音区間の開始を示す「Ｅ」とマークして記憶装置に記憶する。

音声取得部１２はさらに、「Ｅ」とマークされた無音区間の開始位置から無音時間の閾値（例えば、０．５秒）の間、有音を検出しない場合、直前の「Ｅ」までを１つの会話として処理する（図４の「ＥＯＳ」）。会話の終了を示す「ＥＯＳ」の後に、有音を検出した場合は、検出された位置に対して「Ｓ」をマークして無音区間の検出に戻り、録音音声の終了時点まで、有音区間および無音区間の検出を繰り返す。

音声取得部１１は、最初に検知された有音区間の開始位置（「Ｓ」でマークされた位置）から、会話の終了位置（「ＥＯＳ」でマークされた位置）までの１つの会話の中から、有音区間の開始位置（「Ｓ」）と無音区間の開始位置（「Ｅ」）との対で規定される区間を、有音区間として１つの会話音声から切り出す。音声取得部１２は、この有音区間の切り出しを、会話の終了位置（「ＥＯＳ」）まで繰り返す。

有音区間を切り出す際に、音声取得部１１は、有音区間の開始位置から終了位置までの区間長（秒数）が、有音時間の閾値（例えば、０．５秒）未満の場合は、ノイズまたは不要語と判断し、会話を無効化して削除してよい。
また、有音区間を切り出す際に、音声取得部１１は、切り出された有音区間の前後に糊代（遊び）区間を付加して切り出してもよい。例えば、音声取得部１２は、「Ｓ−糊代閾値（例えば、０．２秒）」から「Ｅ＋糊代閾値（例えば、０．２秒）」を、１つの有音区間として切り出してよい。

録音された１つの音声ファイルは、複数の有音区間を含み得る。音声取得部１１は、所定の計測閾値（例えば、９０秒）に到達するまで、切り出された複数の有音区間を繋ぎ合わせる処理を繰り返す。この有音区間を繋ぎ合わせる処理は、複数の会話に亘って実行され得る。最終的に、音声取得部１１は、９０秒以上の長さを持つ繋ぎ合わされた有音区間を処理対象の音声データとして生成し、生成された音声データを音声記憶部１２に記憶する。

なお、図４を参照して上記で説明した有音区間の切り出しおよび繋ぎ合わせ処理は、音声処理サーバ７に替えて、ＰＣ１、３が実行してよい。この場合、ＰＣ１、３において、有音区間が切り出されおよび繋ぎ合わされた音声データを記憶し、音声処理サーバ７が、例えば、ＰＣ１、３に記憶された音声データファイルのアップロードを指示することにより、音声データファイルを受信すればよい。

図３に戻り、Ｓ３で、音声処理サーバ７の音声解析部１３は、音声取得部１１から供給される、または音声記憶部１２から読み出された処理対象の音声データを解析する。具体的には、音声解析部１３は、音声取得部１１から供給される処理対象の音声データを解析して、話者の性格に関連する定量的指標を算出し、算出された定量的指標の値を、性格型分類部１４に供給する。

Ｓ４で、音声処理サーバ７の性格型分類部１４は、音声解析部１３から供給される話者の性格に関連する定量的指標の値を、性格型マトリクス上にマッピングすることで、当該話者の性格型マトリクス上の位置を決定する。

図５は、性格型分類部１４が参照する性格型マトリクスの構成の一例を示す図である。
図５を参照して、性格型マトリクス９は２軸を有し、縦軸は、正方向に積極性（Ｅｎｅｒｇｅｔｉｃ）、負方向に慎重性（Ｓｔｒｅｓｓ）を示し、横軸は、左方向に論理性（Ｌｏｇｉｃａｌ）、右方向に感情性（Ｅｍｏｔｉｏｎａｌ）を示す。
図５において、性格型マトリクス９は４つのセグメントに分割され、左上のセグメントはＥＬ型（積極的かつ論理的）、右上のセグメントはＥＥ（積極的かつ論理的）、左下のセグメントはＳＬ型（慎重かつ論理的）、右下のセグメントはＳＥ型（慎重かつ感情的）をそれぞれ性格型として示す。

本実施形態において、性格型マトリクス９のそれぞれのセグメントは、さらに、９つのセルに再分割されている（Ａ１〜Ａ３、Ｂ１〜Ｂ３、Ｃ１〜Ｃ３）。音声解析部１３は、処理対象の音声データの音声波形を解析して、性格型マトリクス９の縦軸の積極性／慎重性の相対値および横軸の論理性／感情性の相対値を算出し、算出された相対値を音声解析結果として性格型分類部１４に出力する。性格型分類部１４は、音声解析部１３が出力する積極性／慎重性の相対値と、論理性／感情性の相対値との交点を、性格型マトリクス９の上のいずれかのセグメントのいずれかのセルの位置にマッピングする。すなわち、性格型マトリクス９の上の各セルは、それぞれ積極性／慎重性、論理性／感情性の２軸において、それぞれ異なる性格型を識別する。

音声解析部１３が実行する音声解析処理は、話者の脳波の動きと声帯の動きとが連動するものであり、発話のプロセスにおいて人間は感情を制御することができず感情が声に現れるとの知見に基づくものである。このため、音声解析部１３は、話者の発話の言語や発話の内容に依存することなく、解析対象の音声データの音声波形から把握される発話の抑揚（イントネーション）に基づいて話者の性格を示す感情の振幅や変化を数値化することができる。この感情解析には、公知の技術（例えば、特表２００２−５０９２６７号公報）を適用することができるがこれに限定されない。

性格型分類部１４は、Ｓ４で決定された性格型マトリクス９のセグメントおよび当該セグメント内のセルの識別子（例えば、ＥＬ型／Ａ１）を、性格型として、解析対象の話者の識別子と対応付けて、性格型記憶部１５に記憶する。

性格型分類部１４は、Ｓ４で決定された性格型マトリクス９の上のセグメントおよび当該セグメント内のセルに対応するメッセージを、ＰＣ１、３に送信し、ＰＣ１，３の表示装置を介して出力してよい。音声処理サーバ７は、性格型マトリクス９の各セグメントおよび各セルについてそれぞれ、他のセグメントおよび他のセルと識別可能な性格型を記述するメッセージを記憶するテーブルを備え、性格型分類部１４は、このメッセージテーブルを参照して、決定された性格型マトリクス９のセグメントおよびセルに対応するメッセージをＰＣ１、３の表示装置を介して出力させてよい。

図３に戻り、Ｓ５で、音声処理サーバ７の相性判定部１６は、指定された相性判定対象の複数の話者についてのそれぞれの性格型の判定結果に基づいて、当該話者間の相性を判定する。
具体的には、本実施形態において、相性判定部１６は、図５に示す性格型マトリクス９で、指定された話者それぞれについて選択されたセルの間の相対距離を算出し、算出されたセル間の相対距離の値から、指定された話者間の相性の程度を定量的に求める。

図６は、性格マトリクス９のセル間の相対距離の算出を一例として説明する図である。
図６を参照して、一例として、相性判定の基準となる話者についてＳ４で決定されたセグメントがＥＬ型（積極的かつ論理的）、決定されたセルがＥＬ型中のＡ１であるものとし、これを基準セルＲとする。相性判定部１６は、基準セルＲから、相性判定の相手の話者について決定されたセグメントおよびセルまでの相対距離を図６に示すように算出する。

ＥＬ型のセグメント内において、基準セルＲから縦方向および横方向にセルを横断するごとに＋１を加算する。例えば、基準セルＲ（Ａ１）から縦方向または横方向に隣接するセルであるＢ１、Ａ２は、それぞれ基準セルＲからの距離が１である。これらの隣接セルＢ１、Ａ２のいずれかに縦方向または横方向に隣接するセルであるＣ１、Ｂ２、およびＡ３は、それぞれ基準セルＲからの距離が２となる。同様に、これらのセルＣ１、Ｂ２、およびＡ３のいずれかに縦方向または横方向に隣接するセルであるＣ２、Ｂ３は、それぞれ基準セルＲからの距離が３である。ＥＬ型のセグメント内で基準セルＲの対角線上に位置するセルであるＣ３は、基準セルＲからの距離が４である。他の性格型であるＥＥ型、ＳＬ型、ＳＥ型についても、同様にセル間の相対距離を算出することができる。

このように、相性判定部１６は、性格型マトリクス９で、基準セルＲから相性を判定する相手の話者について選択されたセルまでの縦方向および横方向の経路長を算出することにより、セル間の相対距離を算出する。

本実施形態において、決定された性格型から他の性格型に移動する場合、セグメント間移動についての相対距離が付加されるものとする。非限定的一例として、このセグメント間移動の際に付加すべき相対距離の閾値は、性格型のセグメントを縦方向または横方向に横断する場合に＋４を加算し、性格型のセグメントを対角線上に横断する場合に＋５を加算するものとする。このセグメント間移動の際に付加すべき相対距離の閾値は、例えば、パラメータ設定画面等を介して変更可能であってよい。

図６を参照して、例えば、ＥＬ型に属する基準セルＲ（Ａ１）から、ＳＬ型（慎重かつ論理的）のセグメントのセルＡ１に移動する場合、同一セグメント内であれば、ＳＬ型のセルＡ１は基準セルＲに隣接するため基準セルＲからの距離は１である。ただしここでは、縦方向にセグメントを横断するため、＋４を加算して、基準セルＲからＳＬ型のセルＡ１への相対距離は５となる。同様に、ＥＬ型に属する基準セルＲ（Ａ１）から、ＥＥ型（積極的かつ感情的）のセグメントのセルＡ１に移動する場合、同一セグメント内であれば、ＥＥ型のセルＡ１は基準セルＲに隣接するため基準セルＲからの距離は１である。ただしここでは、縦方向にセグメントを横断するため、＋４を加算して、基準セルＲからＳＬ型のセルＡ１への相対距離は５となる。

ＥＬ型に属する基準セルＲ（Ａ１）から、ＳＥ型（慎重かつ感情的）のセグメントのセルＡ１に移動する場合、同一セグメント内であれば、ＳＥ型のセルＡ１は、ＳＬ型またはＥＥ型のセルＡ１に隣接するため基準セルからの距離は２である。ただしここでは、対角線上にセグメントを横断するため、＋５を加算して、基準セルＲからＳＥ型のセルＡ１への相対距離は７となる。

このように、本実施形態では、相性判定部１６は、セル間の相対距離を、隣接するセルへの縦方向または横方向の移動距離から算出する。このため、基準セルＲと対角線上に隣接するセルに対しては、基準セルＲに縦方向または横方向に隣接するセルよりも大きい相対距離が算出される。

同一性格型において、基準セルＲに縦方向または横方向に隣接するセルの方が、基準セルＲと対角線上に隣接するセルよりも、積極性／慎重性の縦軸のパラメータ値（属性値）または論理性／感情性の横軸のパラメータ値（属性値）のいずれかが基準セルＲに近い。したがって、基準セルＲに縦方向または横方向に隣接するセルに属する話者は、基準セルＲと対角線上に隣接するセルに属する話者よりも、基準セルＲに属する話者との性格型における近似性および親和性が高く、したがって、相性がよいと推定できるからである。

また、本実施形態では、相性判定部１６は、性格型のセグメントのボーダーラインを横断する場合、相対距離を付加する。このため、他の性格型のセグメントに属するセルに対しては、同一性格型のセグメント内に属するセルよりも大きい相対距離が算出される。たとえセル間の相対距離が近くても、性格型のセグメントを横断することは、複数の話者がそれぞれ異なる性格型に分類されることを意味するため、類型的に性格型における近似性および親和性が低く、したがって、同一の性格型と比較して相性が低下すると推定できるからである。

図７は、性格マトリクス９のセル間の相対距離から話者間の相性を段階的に定義する相性判定テーブルの一例を示す図である。
図７を参照して、相性判定テーブルは、相対距離０〜１は「最適」、相対距離２〜３は「良好」、相対距離４〜５は「良い」、相対距離６〜７は「普通」、相対距離８〜９は「警告」、相対距離１０〜１１は「注意」、相対距離１２〜１５は「回避」と定義している。

例えば、本実施形態をコールセンタ業務に適用してオペレータと顧客との相性を判定する場合、オペレータの当該顧客に対する相性が「最適」であれば、当該顧客と同じ性格でよりよい対応が可能である、「良好」であれば、当該顧客と近い性格でよりよい対応が可能である、「よい」であれば、当該顧客に合わせることが可能である、「普通」であれば、当該顧客に普通の対応が可能である、と、それぞれ許容可能な相性であり、良好な対応が望めることが判定できる。

一方、オペレータの当該顧客に対する相性が「警告」であれば、当該顧客の性格をオペレータに伝えた上で対応に留意を要する、「注意」であれば、できれば当該顧客に対応しないことを勧める、「回避」であれば、当該顧客への対応を回避すべき、と、それぞれ相性が相対的に悪く、対応を再考または回避すべきことが判定できる。

図３に戻り、Ｓ６で、音声処理サーバ７の出力部１７は、Ｓ４で性格型分類部１４により分類された話者の性格型、および／または、Ｓ５で相性判定部１６により判定された指定された複数の話者間の相性を表示装置等の任意の出力デバイスに出力する。出力先の表示装置は、ＰＣ１、３に設けられてよく、或いは、音声処理サーバ７や他のサーバ装置に適宜設けられてもよい。出力部１７は、分類された性格型および相性をより詳細に説明するメッセージや、推奨される応対を説明するメッセージを、出力結果とともに、表示装置に表示させてよい。

図８から図１２を参照して、音声処理サーバ７がＰＣ１、３の表示装置を介して提供する音声取得、ならびに話者の性格および話者間の相性出力のユーザインタフェースの非限定的一例を説明する。
図８を参照して、ＰＣ１、３の表示画面上のメッセージフィールド８１は、話者の発話を促すメッセージとして、「お名前と年代と性別と出身地をお話しください。」を表示している。なお、本実施形態は、発話の言語やコンテキストに異存することなく話者の性格型および話者間の相性を判定するため、集音すべき発話内容は任意であり、したがって、発話を促すメッセージも任意の発話を促すメッセージであれば足りる。

話者は、メッセージフィールド８１に表示される発話を促すメッセージに応答して、録音開始ボタン（不図示）を押下して発話を開始し、所期の発話が終了した際に、録音終了ボタン８２を押下して発話の録音の終了をユーザインタフェースに指示する。

録音された発話中の有音区間長が、図３のＳ２の処理を経て、計測閾値（例えば、９０秒）に到達した場合、メッセージフィールド８１は、「性格判定が実施戒能な録音時間に達しました。」とのメッセージを表示し、話者に必要な発話録音が終了したことを通知して、録音時間表示フィールド９１に有音区間の累積録音時間を表示する。
図９において、性格判定ボタン９２を押下すると、図１０の画面に遷移する。
図１０を参照して、メッセージフィールド８１は、図８および図９の画面を介して発話が録音された話者について判定された性格の判定結果を表示する。
性格保存ボタン１０１を押下すると、発話が録音された話者について判定された性格の判定結果が記憶装置に記憶される。

図１１を参照して、図８および図９の画面を介して発話が録音された第１の話者（「山田太郎」）に対する相性を判定すべき、第２の話者（「鈴木一郎」）の発話の録音が終了し、性格保存ボタン１０１が押下されると、メッセージフィールド８１は、第２の話者の発話の録音が終了し、第２の話者の音声が記憶装置に記憶された旨を表示する。
話者１選択フィールド１２１は、第１の話者（「山田太郎」）を表示し、第２の話者（「鈴木一郎」）は、話者２選択フィールド１１１の押下により、第２の話者として設定される。

相性判定ボタン１１３が押下されると、図１２の画面に遷移する。
図１２を参照して、メッセージフィールド８１は、第２の話者（「鈴木一郎」）の性格判定結果を表示している。
相性判定結果フィールド１２１は、第１の話者（「山田太郎」）と第２の話者（「鈴木一郎」）との相性が良好である旨を表示している。

以上説明したように、本実施形態によれば、音声処理サーバは、話者により発話された音声データを解析し、音声解析結果に基づいて、複数のセグメントが配置され、かつ複数のセグメントのそれぞれが複数のセルに分割された性格型マトリクスであって、それぞれのセルが異なる性格を識別する性格型マトリクス上の特定のセルを選択する。音声処理サーバはさらに、解析部による解析結果に基づいて、複数の話者について、それぞれ選択されたセルの間の性格型マトリクス上の相対距離に基づいて、複数の話者の間の相性を判定する。
これにより、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者間の相性を判定することができる。

（実施形態２）
以下、図１３および図１４を参照して、本発明の実施形態２を、実施形態１と異なる点についてのみ詳細に説明する。
実施形態１は、発話音声の解析結果に基づいて判定された話者の性格型に基づいて、複数の話者間の相性を判定した。本実施形態は、複数の話者間の相性を判定することに替えて、またはこれに加えて、発話音声の解析結果に基づいて判定された話者の性格型に基づいて、話者の職業適性（適応度）を判定する。

＜音声処理サーバ７による音声処理の詳細処理手順＞
図１３は、本実施形態において、音声処理サーバ７が実行する音声処理の詳細処理手順の一例を示すフローチャートである。
図１３を参照して、Ｓ１からＳ４までの各処理は、図３に示す実施形態１の各処理と同様である。

Ｓ４で、音声処理サーバ７の性格型分類部１４が、話者が発話した音声データを解析して話者の性格型を判定した後、Ｓ７に進む。
Ｓ７で、音声処理サーバ７の性格型分類部１４はさらに、Ｓ４で判定された話者の性格型に基づいて、話者の適性を判定する。本実施形態をコールセンタ業務に適用する場合、性格型分類部１４は、例えば、オペレータの発話を解析して得られるオペレータの性格に基づいて、オペレータの職業適性を判定してよい。

図１４は、本実施形態において、性格型分類部１４が参照して話者の職業適性を判定する適性判定マトリクスの一例を示す図である。図１４の適性判定マトリクス９ａは、図５に示す性格型マトリクス９の各セルに適性値を付与したマトリクスであって、職業一般に汎用的に適用可能な適性判定マトリクスの一例を示す。

図１４を参照して、適性判定マトリクス９ａの各セルは、ハッチングの種別で示されるように、縦軸および横軸に対してそれぞれ対照的に、マトリクスの中央のセルには高い適性度が、マトリクスの周縁のセルには低い適性度がそれぞれ付与されているものとする。換言すると、マトリクス中の複数のセル（３６セル）は、マトリクスの中央から周縁に向けた相対距離に応じて、適性度が低下するよう、グルーピングされている。

図１４を参照して、例えば、４つの性格型のセグメントのそれぞれにおいて、セルＡ１には、最高の適性値４が、セルＡ１の周囲のセルＡ２、Ｂ１、およびＢ２には、それぞれ適性値３が、セルＡ２、Ｂ１、およびＢ２に縦方向または横方向で隣接するセルＡ３、Ｂ３、Ｃ１、およびＣ２には、それぞれ適性値２が、セルＢ２と対角線上で隣接し、マトリクスの四隅に位置するセルＣ３には、最低の適性値１が、付与されているものとする。適性値がより高いセルが性格判定結果として選択された話者は、より高い職業適性を有するものと推定することができ、一方、適性値がより低いセルが性格判定結果として選択された話者は、より低い職業適性を有するものと推定することができる。

本実施形態では、職業の性質ないし属性に応じて、図１４の性格型マトリクスのそれぞれのセルに付与される適性値を、類型的に変更する。その結果、図１４の性格型マトリクスのそれぞれのセルに付与される適性値は、縦軸および／または横軸に対して非対称に分布し得る。

例えば、コールセンタのオペレータには、未知の顧客との間で、限られた時間内の通話のみで良好なコミュニケーションを確立することが要請され、慎重ないし消極的である性格は、適性に乏しい。このため、音声処理サーバ７の性格型分類部１４は、適性判定すべき職業がコールセンタのオペレータである場合、積極性／慎重性の値に閾値を設けて、閾値以上の慎重性を示すセルの適性値を減少してよい。例えば、４つの性格型のセグメントのそれぞれにおいて、セルＢ１およびＢ２に付与すべき適性値を、デフォルト値の３から２に変更してよく、セルＣ１およびセルＣ２に付与される適性値を、デフォルト値の２から１に変更してよい。

一方、例えば、システムエンジニア（ＳＥ）には、論理的思考力が要請され、感情的である性格は、適性に乏しい。このため、音声処理サーバの性格型分類部１４は、適性判定すべき職業がＳＥである場合、論理性／感情性の値に閾値を設けて、閾値以上の感情性を示すセルの適性値を減少してよい。例えば、ＥＥ型およびＳＥ型の性格型のセグメントのそれぞれにおいて、セルＡ３およびセルＢ３に付与すべき適性値を、デフォルト値の２から１に変更してよい。

上記のように、音声処理サーバ７の性格型分類部１４は、話者の職業の性質ないし属性に応じて、異なる適性値が付与された複数の適性判定マトリクスから、話者の属性（職業）に対応する適性判定マトリクスを選択し、選択された適性判定マトリクスを参照して、話者の職業適性を判定する。

図１３に戻り、Ｓ８で、音声処理サーバ７の出力部１７は、Ｓ４で性格型分類部１４により分類された話者の性格型、および／または、Ｓ７で性格型分類部１４により判定された話者の適性を表示装置等の任意の出力デバイスに出力する。出力先の表示装置は、ＰＣ１、３に設けられてよく、或いは、音声処理サーバ７や他のサーバ装置に適宜設けられてもよい。出力部１７は、分類された性格型および適性をより詳細に説明するメッセージ等を、出力結果とともに、表示装置に表示させてよい。図１２を参照して、メッセージフィールド８１は、第２の話者について判定されたオペレータとしての適性が、比較的高い適性度３に対応する「適応」を表示している。

以上説明したように、本実施形態によれば、音声処理サーバは、話者により発話された音声データを解析し、音声解析結果に基づいて、複数のセグメントが配置され、かつ複数のセグメントのそれぞれが複数のセルに分割された性格型マトリクスであって、それぞれのセルが異なる性格を識別する性格型マトリクス上の特定のセルを選択する。音声処理サーバはさらに、選択されたセルに付与された適性値に基づいて、話者の適性を判定する。
これにより、バイアスを有効に排除しつつ、簡易かつ十分に高精度に、話者の性格を分類し、かつ話者の適性を判定することができる。

（各装置のハードウエア構成の一例）
図１５は、音声処理システムにおける各装置がそれぞれ備えるハードウエア構成の一例を示す図である。音声処理サーバ７、およびＰＣ１、３は、図１５に示すハードウエアコンポーネントの全部又は一部を備える。図１５に示す各装置は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、外部メモリ２４、入力部２５、表示部２６、通信Ｉ／Ｆ２７及びシステムバス２８を備えてよい。

ＣＰＵ２１は、装置における動作を統括的に制御するものであり、システムバス２８を介して各構成部（２２〜２７）を制御する。ＣＰＵ２１は音声解析処理、性格型判定処理、相性判定処理、または適性判定処理等の各処理を実行する処理部として機能する。ＲＯＭ２２は、ＣＰＵ２１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは外部メモリ２４や着脱可能な記憶媒体（図示せず）に記憶されていてもよい。ＲＡＭ２３は、ＣＰＵ２１の主メモリ、ワークエリア等として機能する。よって、ＣＰＵ２１は、処理の実行に際してＲＯＭ２２から必要なプログラム等をＲＡＭ２３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

外部メモリ２４は例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、または着脱可能な外部記憶装置から構成され、ＣＰＵ２１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶する。また、外部メモリ２４には例えば、ＣＰＵ２１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。

入力部２５はキーボード、タブレット等各種入力デバイスから構成される。表示部２６は例えば液晶ディスプレイ等からなる。通信Ｉ／Ｆ２７は、外部装置と通信するためのインタフェースであり、例えば、有線ＬＡＮインタフェース、無線ＬＡＮ（Ｗｉ−Ｆｉ）インタフェースやＢｌｕｅｔｏｏｔｈ（登録商標）インタフェースを備える。システムバス２８は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、外部メモリ２４、入力部２５、表示部２６及び通信Ｉ／Ｆ２７を通信可能に接続する。

なお、上述した各実施形態は、その複数を組み合わせて実現することが可能である。
また、本発明は、上述の実施形態の一部または１以上の機能を実現するプログラムによっても実現可能である。すなわち、そのプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータ（またはＣＰＵやＭＰＵ等）における１つ以上のプロセッサがプログラムを読出し実行する処理により実現可能である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。
また、コンピュータが読みだしたプログラムを実行することにより、実施形態の機能が実現されるものに限定されない。例えば、プログラムの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって上記した実施形態の機能が実現されてもよい。

以上、本発明の実施形態について詳細に説明したが、上記実施形態は、本発明を実施するにあたっての具体例を示したに過ぎない。本発明の技術的範囲は、前記実施形態に限定されるものではない。本発明は、その趣旨を逸脱しない範囲において種々の変更が可能であり、それらも本発明の技術的範囲に含まれる。

１ＰＣ
２マイクロフォン
３ＰＣ
４マイクロフォン
５ネットワーク
６ルータ
７音声処理サーバ
８インターネット
９性格型マトリクス
９ａ適性判定マトリクス
１１音声取得部
１２音声記憶部
１３音声解析部
１４性格型分類部
１５性格型記憶部
１６相性判定部
１７出力部
２１ＣＰＵ
２２ＲＯＭ
２３ＲＡＭ
２４外部メモリ
２５入力部
２６表示部
２７通信Ｉ／Ｆ

Claims

話者により発話された音声データを解析する音声解析部と、
複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶部と、
前記音声解析部による解析結果に基づいて、前記マトリクス記憶部により記憶される前記マトリクス上のセルを選択するセル選択部と、
複数の話者について、前記セル選択部によりそれぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定する相性判定部と、
を備える話者間相性判定装置。
前記相性判定部は、前記セル選択部によりそれぞれ選択されたセルの間の前記マトリクスの縦方向および横方向の経路長から、前記相対距離を算出する
ことを特徴とする請求項１に記載の話者間相性判定装置。
前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクスに配置された異なるセグメントに位置する場合、所定の値を前記相対距離に付加して、前記相対距離を算出する
ことを特徴とする請求項１または２に記載の話者間相性判定装置。
前記相性判定部は、前記セル選択部によりそれぞれ選択された複数のセルが、前記マトリクス上で対角線上に配置される異なるセグメントに位置する場合、前記マトリクス上で縦方向または横方向に隣接して配置される異なるセグメントに位置する場合より、大きい値を前記相対距離に付加して、前記相対距離を算出する
ことを特徴とする請求項３に記載の話者間相性判定装置。
前記相対距離に付加すべき前記所定の値を、前記複数のセルがそれぞれ属する前記セグメントの前記マトリクス内の配置に応じて変更する閾値変更部をさらに備える
ことを特徴とする請求項３または４に記載の話者間相性判定装置。
前記音声解析部による解析に先立って、前記音声データの音声波形に基づいて、前記音声データから有音区間を抽出し、抽出された前記有音区間を、所定の時間長以上となるまで繋ぎ合わせる前処理部をさらに備える
ことを特徴とする請求項１から５のいずれか１項に記載の話者間相性判定装置。
前記相性判定部により判定された前記相性を、前記セル選択部により選択されたセルに対応する性格型と対応付けて、出力装置に出力させる出力部をさらに備える
ことを特徴とする請求項１から６のいずれか１項に記載の話者間相性判定装置。
前記マトリクスの各セルに属性ごとに異なる適性値を分布させた複数の適性マトリクスを記憶する適性マトリクス記憶部と、
前記適性マトリクス記憶部に記憶される前記複数の適性マトリクスのうち、前記話者の前記属性に対応する適性マトリクスを参照して、前記セル選択部により選択されたセルの前記マトリクス上の位置に基づいて、前記話者の適性を判定する適性判定部と、をさらに備える
ことを特徴とする請求項１から７のいずれか１項に記載の話者間相性判定装置。
前記適性判定部により判定された前記適性を、前記セル選択部により選択されたセルに対応する性格型と対応付けて、出力装置に出力させる適性出力部をさらに備える
ことを特徴とする請求項８に記載の話者間相性判定装置。
話者により発話された音声データを解析する音声解析部と、
複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶部と、
前記マトリクス記憶部に記憶される前記マトリクスの各セルに、属性ごとに異なる適性値を分布させた複数の適性マトリクスを記憶する適性マトリクス記憶部と、
前記音声解析部による解析結果に基づいて、前記マトリクス記憶部により記憶される前記マトリクス上のセルを選択するセル選択部と、
前記適性マトリクス記憶部に記憶される前記複数の適性マトリクスのうち、前記話者の前記属性に対応する適性マトリクスを参照して、前記セル選択部により選択されたセルの前記マトリクス上の位置に基づいて、前記話者の適性を判定する適性判定部と、
を備える話者適性判定装置。
話者間相性判定装置が実行する話者間相性判定方法であって、
話者により発話された音声データを解析するステップと、
複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するステップと、
前記音声データの解析結果に基づいて、記憶される前記マトリクス上のセルを選択するステップと、
複数の話者について、それぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定するステップと、
を含むことを特徴とする話者間相性判定方法。
話者間相性判定処理をコンピュータに実行させるための話者間相性判定プログラムであって、該プログラムは、前記コンピュータに、
話者により発話された音声データを解析する音声解析処理と、
複数のセグメントが配置され、かつ前記複数のセグメントのそれぞれが複数のセルに分割されたマトリクスであって、前記複数のセルのそれぞれが異なる性格型に対応するマトリクスを記憶するマトリクス記憶処理と、
前記音声解析処理による解析結果に基づいて、前記マトリクス記憶処理により記憶される前記マトリクス上のセルを選択するセル選択処理と、
複数の話者について、前記セル選択処理によりそれぞれ選択されたセルの間の前記マトリクス上の相対距離に基づいて、前記複数の話者の間の相性を判定する相性判定処理と、を含む処理を実行させるためのものである、
ことを特徴とする話者間相性判定プログラム。