JP2021121834A

JP2021121834A - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: JP2021121834A
Application number: JP2020014869A
Authority: JP
Inventors: 圭悟本杉; Keigo Motosugi
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2021-08-26
Also published as: US20210241763A1

Abstract

【課題】音声データを話者単位に区別可能にすること。【解決手段】会話画面１４００は、音声録音された話者の会話を時系列に表示する画面である。会話画面１４００には、話者「花子」が話者「太郎」にインタビューした際に録音された発話内容を示すメッセージ１４０１〜１４０５が表示されている。例えば、メッセージ１４０１は、発話者名「花子」と発話時刻「１０：４３」と発話内容「こんにちは」とを含む。情報処理装置１０１は、発話内容「こんにちは」に対応する音声データの入力を受け付けたタイミング（発話時刻）における、自装置のモーションセンサｓ１または地磁気センサｓ２の計測値に応じて、発話者名「花子」を特定する。【選択図】図１４

Description

本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。

従来、音声認識システムにおける話者識別方式として、予め登録された発話者の音声データと、録音された音声データとの波形マッチングを行って、話者を特定するものがある。また、複数の指向性マイクを搭載した特殊マイクを使用して、発話方向と話者とを対応付けて、話者を特定するものがある。

先行技術としては、撮像された視界の画像データから話者の顔画像データおよび顔特徴データの少なくとも一方を抽出し、その顔画像データおよび顔特徴データならびに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する眼鏡型表示装置がある。

特開２０１２‐５９１２１号公報

しかしながら、従来技術では、複数の指向性マイクや特殊マイクを搭載しないスマートフォンや携帯電話機などにおいて入力される音声データを話者単位に区別することが難しい。

一つの側面では、本発明は、音声データを話者単位に区別可能にすることを目的とする。

一つの実施態様では、情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、情報処理プログラムが提供される。

本発明の一側面によれば、音声データを話者単位に区別可能にすることができるという効果を奏する。

図１は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。図２は、情報処理システム２００のシステム構成例を示す説明図である。図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図４は、メイン画面の画面例を示す説明図である。図５は、情報処理装置１０１の使用例を示す説明図である。図６は、話者対応テーブル（傾き判定）２２０ａの記憶内容の一例を示す説明図である。図７は、話者対応テーブル（方位判定）２２０ｂの記憶内容の一例を示す説明図である。図８は、情報処理装置１０１の機能的構成例を示すブロック図である。図９は、話者判定設定画面の画面例を示す説明図（その１）である。図１０は、話者判定設定画面の画面例を示す説明図（その２）である。図１１は、話者対応テーブル（傾き判定）２２０ａの設定例を示す説明図である。図１２は、話者判定設定画面の画面例を示す説明図（その３）である。図１３は、話者対応テーブル（方位判定）２２０ｂの設定例を示す説明図である。図１４は、会話画面の画面例を示す説明図である。図１５は、情報処理装置１０１の音声入力処理手順の一例を示すフローチャートである。図１６は、情報処理装置１０１のセンシングデータ取得処理手順の一例を示すフローチャートである。図１７は、情報処理装置１０１の話者識別処理手順の一例を示すフローチャートである。

以下に図面を参照して、本発明にかかる情報処理プログラム、情報処理方法および情報処理装置の実施の形態を詳細に説明する。

（実施の形態）
図１は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。図１において、情報処理装置１０１は、自装置に設けられたマイクロホンｍｃにより取得される音声データを、話者単位に区別可能にするコンピュータである。マイクロホンｍｃは、集音した音声を電気信号に変換する装置である。

マイクロホンｍｃは、情報処理装置１０１に内蔵されたマイクロホンであってもよく、また、情報処理装置１０１に取り付け可能な外付けのマイクロホンであってもよい。音声データは、例えば、一定時間単位のデータであってもよく、また、発話区間単位のデータであってもよい。

ここで、音声認識システムにおける話者識別方式として、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）による話者識別方式がある。例えば、予め登録された発話者の音声データと、録音された音声データとの波形マッチングを行って、話者を特定するものがある。

しかし、この話者識別方式では、複数人の発話が重なると判定精度が低下するという問題がある。また、ＡＩによる話者識別方式では、計算量が多くなる傾向があり、リアルタイムの話者識別には、高性能なＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアが必要となるという問題がある。

また、複数の指向性マイクを搭載した特殊マイクを使用して、発話方向と話者とを対応付けて、話者を特定する話者識別方式がある。しかし、この話者識別方式では、特殊なデバイスが必要となり、携帯性に難があるという問題がある。例えば、突然の使用を想定して特殊なデバイスを常に持ち歩くといった使い方をすることは難しい。

そこで、本実施の形態では、情報処理装置１０１のモーションセンサｓ１または地磁気センサｓ２を利用して、マイクロホンｍｃにより取得される音声データに対応する話者の切り替わりを判定する情報処理方法について説明する。以下、情報処理装置１０１の処理例について説明する。

ただし、情報処理装置１０１を使用して音声を録音するにあたり、ユーザは、情報処理装置１０１に設けられたマイクロホンｍｃを話者に向けて使用する。図１の例では、ユーザＡが情報処理装置１０１を使用して、ユーザＢにインタビューするとする。この場合、ユーザＡは、自身が発話するときは、マイクロホンｍｃを自分側に向け、ユーザＢが発話するときは、マイクロホンｍｃを相手側に向けて使用する。

（１）情報処理装置１０１は、自装置に設けられたマイクロホンｍｃにより取得された音声データの入力を受け付ける。具体的には、例えば、情報処理装置１０１は、マイクロホンｍｃにより集音された音声を電子信号に変換した音声データの入力を、マイクロホンｍｃから受け付ける。音声データは、例えば、音の強度の時間変化を示す波形データである。

（２）情報処理装置１０１は、マイクロホンｍｃにより取得された音声データについて、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサｓ１または地磁気センサｓ２の計測値を特定する。

ここで、モーションセンサｓ１は、物体（情報処理装置１０１）の加速度、傾き、方向などを計測する装置である。モーションセンサｓ１は、例えば、加速度センサやジャイロセンサなどを組み合わせて実現される。地磁気センサｓ２は、地磁気を検出して方位を計測する装置である。

音声データの入力を受け付けたタイミングは、例えば、マイクロホンｍｃにより音声データの入力を受け付けた時点である。また、音声データの入力を受け付けたタイミングは、音声データの入力が開始されてから終了するまでのいずれかの時点（例えば、音声入力開始時点）であってもよい。

ここでは、モーションセンサｓ１の計測値として、情報処理装置１０１本体の傾きの角度θが計測される場合を想定する。角度θは、例えば、情報処理装置１０１の本体中心を通る上方向の軸１１１と水平面１１２との角度によって表される。ただし、情報処理装置１０１の形状を略矩形の板状とし、情報処理装置１０１の前面（例えば、画面側）の長手方向を上下方向とする。また、情報処理装置１０１の前面（または、背面）が水平面１１２と平行な状態のときの角度θを０度とし、情報処理装置１０１の上端側を起こすにつれて、角度θが大きくなるものとする。また、マイクロホンｍｃは、情報処理装置１０１の上端側に設けられる。

（２）情報処理装置１０１は、特定したモーションセンサｓ１または地磁気センサｓ２の計測値に基づいて、マイクロホンｍｃにより取得された音声データに対応する話者の切り替わりを判定する。話者の切り替わりを判定するとは、例えば、音声を発する者が、それまでの者とは別の者になったか否かを判定することである。

具体的には、例えば、情報処理装置１０１は、モーションセンサｓ１または地磁気センサｓ２の計測値の変化量が、予め設定された閾値以上となったことに応じて、話者が切り替わったと判定することにしてもよい。計測値の変化量は、音声データの入力を受け付けたタイミングよりも前のタイミング（例えば、一つ前の音声データの入力を受け付けたタイミングなど）における計測値からの変化量である。

また、情報処理装置１０１は、モーションセンサｓ１または地磁気センサｓ２の計測値が、予め設定された第１の範囲内から第２の範囲内となったことに応じて、話者が切り替わったと判定することにしてもよい。例えば、最初に音声データの入力を受け付けたタイミングにおけるモーションセンサｓ１の計測値（角度θ）を「θ＝４５度」とする。

この場合、情報処理装置１０１は、音声データの入力を受け付けたタイミングにおける、角度θが０度以上９０度未満の範囲内のときは、話者が切り替わっていないと判定する。一方、音声データの入力を受け付けたタイミングにおける角度θが、０度以上９０度未満の範囲外となった場合、情報処理装置１０１は、話者が切り替わったと判定する。

図１の例では、角度θが０度以上９０度未満の範囲内のときは、入力された音声データは、ある話者（ユーザＡ）に対応する音声データであると判断することができる。角度θが９０度以上１８０度未満の範囲内となったら、話者が切り替わり、入力された音声データは、別の話者（ユーザＢ）に対応する音声データであると判断することができる。

このように、情報処理装置１０１によれば、マイクロホンｍｃにより取得された音声データに対応する話者の切り替わりを判定可能となり、音声データを話者単位で区別することが可能となる。例えば、ユーザが、情報処理装置１０１を、どのような姿勢（状態）にして使用したか、あるいは、どの方位に向けて使用したかによって、話者の切り替わりを判定することができる。また、話者の切り替わりとは、必ずしも複数の話者の切り替わりである必要はなく、例えば、１人の話者が話をしている中で、情報処理装置１０１の角度θが異なる範囲になった場合にも、話者が切り替わったと判定してもよい。この場合、切り替わったと判定されたタイミングで、１人の話者による発話の区切りが生じたとみなすことができる。

図１の例では、マイクロホンｍｃにより取得された音声データの入力を受け付けたタイミングにおける、モーションセンサｓ１の計測値（角度θ）から、話者の切り替わりを判定して、音声データを話者単位（ユーザＡまたはユーザＢ）に区別することが可能となる。具体的には、例えば、情報処理装置１０１は、話者が切り替わったと判定した場合に、入力された音声データと対応付けて判定結果を出力する。これにより、話者が切り替わったタイミングや箇所を特定可能となり、音声データを話者単位に区別することが可能となる。

（情報処理システム２００のシステム構成例）
つぎに、図１に示した情報処理装置１０１を含む情報処理システム２００のシステム構成例について説明する。情報処理システム２００は、例えば、録音した音声から発言録や議事録を自動作成するサービスに適用される。

図２は、情報処理システム２００のシステム構成例を示す説明図である。図２において、情報処理システム２００は、情報処理装置１０１と、議事録サーバ２０１と、音声認識サーバ２０２と、を含む。情報処理システム２００において、情報処理装置１０１、議事録サーバ２０１および音声認識サーバ２０２は、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。

ここで、情報処理装置１０１は、情報処理システム２００のユーザが使用するコンピュータである。例えば、情報処理装置１０１は、スマートフォン、携帯電話機、タブレット型端末などである。情報処理装置１０１は、話者対応テーブル２２０およびセンシングデータテーブル２３０を有する。

話者対応テーブル２２０は、話者対応テーブル（傾き判定）２２０ａと、話者対応テーブル（方位判定）２２０ｂとを含む。なお、話者対応テーブル（傾き判定）２２０ａおよび話者対応テーブル（方位判定）２２０ｂの記憶内容については、図６および図７を用いて後述する。

センシングデータテーブル２３０は、センシングデータを記憶する。センシングデータは、後述の図３に示す各種センサ３０６の計測値を、当該計測値が計測された時点を特定する情報（例えば、計測時刻）と対応付けて表す情報である。

議事録サーバ２０１は、議事録ＤＢ（Ｄａｔａｂａｓｅ）２４０を有し、発言録や議事録を記録するコンピュータである。議事録ＤＢ２４０は、例えば、議事録ＩＤと対応付けて、発話情報を記憶する。議事録ＩＤは、議事録を一意に識別する識別子である。発話情報は、発話者名と発話テキストを含む。

音声認識サーバ２０２は、音声データをテキストデータに変換するコンピュータである。音声データをテキスト化する技術としては、既存のいかなる技術を用いることにしてもよい。例えば、音声認識サーバ２０２は、深層学習などの機械学習に基づく手法により、音声データから音声を認識して、文字（テキストデータ）に変換する。

なお、図２の例では、議事録サーバ２０１と音声認識サーバ２０２とを別々のコンピュータで実現することにしたが、これに限らない。例えば、音声認識サーバ２０２は、議事録サーバ２０１により実現することにしてもよい。また、情報処理システム２００には、複数の情報処理装置１０１が含まれていてもよい。

情報処理システム２００において、ユーザは、例えば、情報処理装置１０１から議事録サーバ２０１に接続して、議事録作成サービスを利用することができる。議事録作成サービスは、録音した音声から発言録や議事録を自動作成したり、自動作成された発言録や議事録を閲覧したり編集したりすることができるサービスである。

情報処理装置１０１から議事録サーバ２０１に接続するための情報（ＵＲＬ、認証トークン、議事録ＩＤなど）は、例えば、所定のＱＲ（ＱｕｉｃｋＲｅｓｐｏｎｓｅ）コードから得ることができる。所定のＱＲコードは、例えば、サービス提供者により、ユーザが使用するＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などに表示される。ＱＲコードは、登録商標である。

また、音声認識サーバ２０２は、情報処理装置１０１から音声データを受信すると、受信した音声データを音声認識処理してテキストデータに変換し、変換したテキストデータ（音声認識結果）を情報処理装置１０１に送信する。音声認識結果は、例えば、発話区間単位の認識結果である。発話区間は、音声（発話）が連続して検出された区間である。

なお、情報処理装置１０１から音声認識サーバ２０２に接続するための情報（ＵＲＬ、接続キーなど）は、例えば、議事録サーバ２０１から取得することができる。

（情報処理装置１０１のハードウェア構成例）
つぎに、図３を用いて、情報処理装置１０１のハードウェア構成例について説明する。

図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図３において、情報処理装置１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、ディスプレイ３０４と、入力装置３０５と、各種センサ３０６と、マイクロホンｍｃと、を有する。また、各構成部はバス３００によってそれぞれ接続される。

ここで、ＣＰＵ３０１は、情報処理装置１０１の全体の制御を司る。ＣＰＵ３０１は、複数のコアを有していてもよい。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

通信Ｉ／Ｆ３０３は、通信回線を通じてネットワーク２１０（図２参照）に接続され、ネットワーク２１０を介して外部のコンピュータ（例えば、議事録サーバ２０１、音声認識サーバ２０２）に接続される。そして、通信Ｉ／Ｆ３０３は、ネットワーク２１０と自装置内部とのインターフェースを司り、外部装置からのデータの入出力を制御する。

ディスプレイ３０４は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ３０４としては、例えば、液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを採用することができる。ディスプレイ３０４は、例えば、後述の図４や図５に示すように、情報処理装置１０１の前面に設けられる。

入力装置３０５は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置３０５は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。

各種センサ３０６は、各種情報を計測するセンサ群である。各種センサ３０６は、例えば、モーションセンサｓ１と、地磁気センサｓ２とを含む。モーションセンサｓ１は、物体（情報処理装置１０１）の加速度、傾き、方向などを計測する。モーションセンサｓ１は、例えば、加速度センサにより実現される。地磁気センサｓ２は、地磁気を検出して方位を計測する。

マイクロホンｍｃは、集音した音声を電気信号に変換する装置である。マイクロホンｍｃにより集音された音声は、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換されて、音声データとして出力される。マイクロホンｍｃは、例えば、単一指向性のマイクロホンである。単一指向性とは、特定の方向の音を捉えやすい性質である。

以下の説明では、マイクロホンｍｃとして、情報処理装置１０１に取り付け可能（接続可能）な外付けのマイクロホンを例に挙げて説明する。

なお、情報処理装置１０１は、上述した構成部のほかに、例えば、スピーカ、ディスクドライブ、ディスク、可搬型記録媒体Ｉ／Ｆ、可搬型記録媒体などを有することにしてもよい。また、各種センサ３０６は、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）ユニットを含むことにしてもよい。ＧＰＳユニットは、ＧＰＳ衛星からの電波を受信し、情報処理装置１０１の位置情報を出力する。情報処理装置１０１の位置情報は、例えば、緯度、経度などの地球上の１点を特定する情報である。衛星として、例えば、準天頂衛星システムの衛星を用いることにしてもよい。また、図２に示した議事録サーバ２０１および音声認識サーバ２０２については、例えば、ＣＰＵ、メモリ、ディスクドライブ、ディスク、通信Ｉ／Ｆ、可搬型記録媒体Ｉ／Ｆ、可搬型記録媒体などにより実現される。

（メイン画面の画面例）
つぎに、情報処理装置１０１のディスプレイ３０４に表示されるメイン画面の画面例について説明する。メイン画面は、音声録音を行う場合に表示される操作画面であり、例えば、情報処理装置１０１から議事録サーバ２０１に接続した際に表示される。

図４は、メイン画面の画面例を示す説明図である。図４において、メイン画面４００は、接続情報表示ボタン４０１と、話者表示欄４０２と、録音開始ボタン４０３と、集音波形ボックス４０４と、調整スライダー４０５と、発話表示領域４０６と、話者判定設定ボタン４０７と、を含む。

メイン画面４００において、図３に示した入力装置３０５を用いたユーザの操作入力により、接続情報表示ボタン４０１を選択すると、不図示の接続情報ダイアログが表示される。接続情報ダイアログには、例えば、接続先ＵＲＬ（議事録サーバ２０１）、議事録ＩＤ、議事録名などが表示される。

話者表示欄４０２には、発話者の表示名（発話者名）が表示される。メイン画面４００において、話者表示欄４０２を選択すると、発話者名を変更することができる。メイン画面４００において、録音開始ボタン４０３を選択すると、録音を開始することができる。例えば、ユーザは、録音開始ボタン４０３を選択した後、発話者にマイクロホンｍｃを向けながら、インタビューや会議を行う。

集音波形ボックス４０４には、現在集音中の音声の波形データ（例えば、波形データ４１０）が表示される。調整スライダー４０５は、集音レベル（マイクロホンｍｃの感度）を調整するための操作部である。発話表示領域４０６には、最後に発話した内容が表示される。

また、メイン画面４００において、話者判定設定ボタン４０７を選択すると、話者判定設定画面を表示することができる。話者判定設定画面は、話者判定に関する各種設定を行うための操作画面である。話者判定設定画面の画面例については、図９、図１０および図１２を用いて後述する。

（情報処理装置１０１の使用例）
ここで、情報処理装置１０１の使用例について説明する。

図５は、情報処理装置１０１の使用例を示す説明図である。ここでは、情報処理装置１０１の形状を略矩形の板状とし、情報処理装置１０１の上端部にマイクロホンｍｃ（図５では、不図示）が取り付けられる場合を想定する。また、４人の話者を識別する場合を想定し、４人の話者を、「話者Ａ」、「話者Ｂ」、「話者Ｃ」および「話者Ｄ」と表記する。情報処理装置１０１のユーザは、話者Ｂの方向にいるものとする。

話者Ａの音声を録音する場合、ユーザは、情報処理装置１０１を持って、情報処理装置１０１を画面上向きの状態にし、マイクロホンｍｃを話者Ａに向けて使用する。画面上向きの状態とは、ディスプレイ３０４を水平面と平行に垂直上向きにした状態である。図中、軸５００は、情報処理装置１０１の中心を通る上下方向の軸である。

話者Ｂの音声を録音する場合、ユーザは、情報処理装置１０１を持った手首を動かして、情報処理装置１０１を画面下向きの状態にし、マイクロホンｍｃを話者Ｂに向けて使用する。この際、情報処理装置１０１は、ユーザの手首の動きにより、軸５００を中心に時計回りまたは反時計回りに１８０度程度回転した状態となる。

話者Ｃの音声を録音する場合、ユーザは、情報処理装置１０１を持った手首を動かして、情報処理装置１０１を画面手前左傾けの状態にし、マイクロホンｍｃを話者Ｃに向けて使用する。画面手前左傾けの状態とは、ディスプレイ３０４がユーザと対向する状態で、情報処理装置１０１の上端部を左に傾けた状態である。この際、情報処理装置１０１は、ユーザの手首の動きにより、軸５００を中心に反時計回りに６０度程度回転した状態となる。

話者Ｄの音声を録音する場合、ユーザは、情報処理装置１０１を持った手首を動かして、情報処理装置１０１を画面手前右傾けの状態にし、マイクロホンｍｃを話者Ｄに向けて使用する。この際、情報処理装置１０１は、ユーザの手首の動きにより、軸５００を中心に時計回りに６０度程度回転した状態となる。

（話者対応テーブル２２０の記憶内容）
つぎに、図６および図７を用いて、情報処理装置１０１が有する話者対応テーブル２２０の記憶内容について説明する。話者対応テーブル２２０は、例えば、図３に示したメモリ３０２により実現される。ただし、情報処理装置１０１を、図５に示した使用例のように使用する場合を想定する。

図６は、話者対応テーブル（傾き判定）２２０ａの記憶内容の一例を示す説明図である。図６において、話者対応テーブル（傾き判定）２２０ａは、話者および回転角（ロール）のフィールドを有し、各フィールドに情報を設定することで、話者対応情報６００−１〜６００−４をレコードとして記憶する。

ここで、話者は、音声の録音対象となる話し手である。ただし、図６中、話者Ａ，Ｂ，Ｃ，Ｄは、情報処理装置１０１上で話者を区別するための仮の発話者名であり、初期状態では実際の人物の名称等が設定されていなくてもよい。回転角（ロール）は、情報処理装置１０１のモーションセンサｓ１により計測される計測値の一つである。

回転角（ロール）は、基準軸を中心に情報処理装置１０１を回転させたときの角度である。ただし、基準軸は、情報処理装置１０１の中心を通る上下方向の軸（例えば、図５に示した軸５００）である。また、時計回りを正の向きとし、反時計回りを負の向きとする。また、情報処理装置１０１を画面上向きの状態にしたときの回転角（ロール）を「０度」とする。

例えば、話者対応情報６００−１は、話者Ａに対応する回転角（ロール）の範囲「−３０度以上３０度以下」を示す。これは、ユーザが、情報処理装置１０１を画面上向きの状態にして、マイクロホンｍｃを話者Ａに向けた場合、ある程度のブレを考慮すると、回転角（ロール）が範囲「−３０度以上３０度以下」となることを意味している。

また、例えば、話者対応情報６００−４は、話者Ｄに対応する回転角（ロール）の範囲「６０度以上１２０度以下」を示す。これは、ユーザが、情報処理装置１０１を持った手首を動かしてマイクロホンｍｃを話者Ｄに向けた場合、ある程度のブレを考慮すると、回転角（ロール）が範囲「６０度以上１２０度以下」となることを意味している。

なお、ここでは、各話者に対応付けるモーションセンサｓ１の計測値に関する範囲として、回転角（ロール）の範囲を例に挙げて説明したが、これに限らない。例えば、各話者に対応付けるモーションセンサｓ１の計測値に関する範囲として、情報処理装置１０１本体の傾きを表す傾斜角（ピッチ）の範囲を用いることにしてもよい。また、各話者に対応付けるモーションセンサｓ１の計測値に関する範囲として、傾斜角（ピッチ）と回転角（ロール）との組み合わせを用いることにしてもよい。

各話者に対応付けるモーションセンサｓ１の計測値に関する範囲は、任意に設定可能である。例えば、設定者が、情報処理装置１０１をどのような姿勢にして各話者の音声を録音するかを決めた上で、情報処理装置１０１の姿勢を変化させながらモーションセンサｓ１の計測値を確認して、各範囲を設定する。設定者は、例えば、情報処理システム２００の管理者や情報処理装置１０１のユーザなどである。

図７は、話者対応テーブル（方位判定）２２０ｂの記憶内容の一例を示す説明図である。図７において、話者対応テーブル（方位判定）２２０ｂは、話者および方位角（アジマス）のフィールドを有し、各フィールドに情報を設定することで、話者対応情報７００−１〜７００−４をレコードとして記憶する。

ここで、話者は、音声の録音対象となる話し手である。方位角（アジマス）は、情報処理装置１０１の地磁気センサｓ２により計測される計測値の一つである。方位角（アジマス）は、基準となる方位との間の角度である。基準となる方位は、例えば、真北の方向である。ただし、時計回りを正の向きとし、反時計回りを負の向きとする。

例えば、話者対応情報７００−１は、話者Ａに対応する方位角（アジマス）の範囲「１度以上９０度以下」を示す。これは、ユーザが、情報処理装置１０１を画面上向きの状態にして、マイクロホンｍｃを話者Ａに向けた場合、ある程度のブレを考慮すると、方位角（アジマス）が範囲「１度以上９０度以下」となることを意味している。

（情報処理装置１０１の機能的構成例）
図８は、情報処理装置１０１の機能的構成例を示すブロック図である。図８において、情報処理装置１０１は、受付部８０１と、音声認識部８０２と、取得部８０３と、特定部８０４と、判定部８０５と、出力部８０６と、設定部８０７と、記憶部８１０と、を含む。具体的には、例えば、受付部８０１〜設定部８０７は、図３に示したメモリ３０２、不図示のディスク、可搬型記録媒体などの記憶装置に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、通信Ｉ／Ｆ３０３により、その機能を実現する。各機能部の処理結果は、例えば、メモリ３０２に記憶される。また、記憶部８１０は、例えば、メモリ３０２により実現される。具体的には、例えば、記憶部８１０は、図２に示した話者対応テーブル２２０やセンシングデータテーブル２３０を記憶する。

受付部８０１は、自装置に設けられたマイクロホンｍｃにより取得された音声データの入力を受け付ける。具体的には、例えば、受付部８０１は、マイクロホンｍｃにより集音された音声を電子信号に変換した音声データの入力を、マイクロホンｍｃから受け付ける。入力された音声データは、例えば、メモリ３０２にバッファリングされる。バッファリングされるデータ（バッファデータ）は、例えば、１秒単位の音声データである。

音声認識部８０２は、入力された音声データを音声認識処理して得られる音声認識結果を取得する。音声認識結果は、例えば、音声データに対応する話者の発話内容を示すテキストデータである。具体的には、例えば、音声認識部８０２は、入力された音声データ（例えば、バッファデータ）を、図２に示した音声認識サーバ２０２に送信する。

音声データには、例えば、当該音声データが入力された時点を特定する情報（時刻情報など）が含まれる。そして、音声認識部８０２は、音声認識サーバ２０２から音声認識結果を受信することにより、入力された音声データを音声認識処理して得られる音声認識結果を取得する。ただし、音声認識処理は、情報処理装置１０１において行われることにしてもよい。

取得部８０３は、各種センサ３０６の計測値を取得する。具体的には、例えば、取得部８０３は、自装置のモーションセンサｓ１の計測値を、一定時間ごと、または、計測値に変化がある度に取得する。また、取得部８０３は、自装置の地磁気センサｓ２の計測値を、一定時間ごと、または、計測値に変化がある度に取得する。一定時間は、例えば、１０ミリ秒程度の時間である。

取得されたモーションセンサｓ１の計測値および地磁気センサｓ２の計測値は、例えば、各計測値の計測時刻と対応付けて、センシングデータテーブル２３０に記憶される。

特定部８０４は、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサｓ１または地磁気センサｓ２の計測値を特定する。モーションセンサｓ１の計測値は、例えば、情報処理装置１０１に内蔵されたモーションセンサｓ１（加速度センサ）により計測される回転角（ロール）である。地磁気センサｓ２の計測値は、例えば、情報処理装置１０１に内蔵された地磁気センサｓ２により計測される方位角（アジマス）である。

具体的には、例えば、まず、特定部８０４は、音声データの入力を受け付けたタイミングを特定する。音声データの入力を受け付けたタイミングは、例えば、音声データの入力が開始された時点である。例えば、音声データが発話区間単位のデータの場合、音声データの入力を受け付けたタイミングは、発話が開始されたタイミングに相当する。

つぎに、特定部８０４は、センシングデータテーブル２３０を参照して、特定したタイミングにおけるモーションセンサｓ１または地磁気センサｓ２の計測値を特定する。特定される計測値は、例えば、音声データの入力を受け付けたタイミングと一致または最も近い計測時刻に対応付けられた計測値である。

判定部８０５は、特定されたモーションセンサｓ１または地磁気センサｓ２の計測値に基づいて、入力された音声データに対応する話者の切り替わりを判定する。具体的には、例えば、判定部８０５は、モーションセンサｓ１または地磁気センサｓ２の計測値が、予め設定された第１の範囲内から第２の範囲内となったことに応じて、マイクロホンｍｃにより取得された音声データに対応する話者の切り替わりを判定する。

また、判定部８０５は、記憶部８１０を参照して、特定されたモーションセンサｓ１または地磁気センサｓ２の計測値を含む範囲に対応する話者を、入力された音声データに対応する話者として特定する。ここで、記憶部８１０は、話者を識別する情報と対応付けて、モーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲を記憶する。

具体的には、例えば、判定部８０５は、話者対応テーブル（傾き判定）２２０ａを参照して、特定されたモーションセンサｓ１の計測値を含む範囲に対応する話者を特定する。また、判定部８０５は、話者対応テーブル（方位判定）２２０ｂを参照して、特定された地磁気センサｓ２の計測値を含む範囲に対応する話者を特定する。

話者の特定例については、図１１および図１３を用いて後述する。なお、特定されたモーションセンサｓ１または地磁気センサｓ２の計測値を含む範囲が存在しない場合は、判定部８０５は、直前に特定した話者と同じ話者を特定することにしてもよい。この際、直前に特定した話者が存在しない場合は、判定部８０５は、予め設定された特定の話者を特定することにしてもよい。

出力部８０６は、特定された話者と対応付けて、入力された音声データを音声認識処理して得られる認識結果を出力する。出力部８０６の出力形式としては、例えば、メモリ３０２への記憶、通信Ｉ／Ｆ３０３による他のコンピュータ（例えば、図２に示した議事録サーバ２０１）への送信、ディスプレイ３０４への表示、不図示のプリンタへの印刷出力などがある。

具体的には、例えば、出力部８０６は、特定された話者を識別する情報（発話者名など）と対応付けて、取得された音声認識結果を、図４に示したメイン画面４００に表示することにしてもよい。例えば、話者を識別する情報（発話者名など）が話者表示欄４０２に表示され、音声認識結果が発話表示領域４０６に表示される。

また、出力部８０６は、特定された話者を識別する情報（発話者名など）と対応付けて、取得された音声認識結果を会話画面に表示することにしてもよい。会話画面は、音声録音された話者の会話を表示する画面である。会話画面の画面例については、図１４を用いて後述する。

また、出力部８０６は、特定された話者を識別する情報（発話者名など）と、取得された音声認識結果（発話テキスト）とを含む発話情報を、議事録サーバ２０１に送信することにしてもよい。発話情報には、例えば、議事録ＩＤが含まれていてもよい。議事録ＩＤは、例えば、議事録サーバ２０１に接続するための情報を記録したＱＲコードから得られる。

議事録サーバ２０１は、受信した発話情報に基づいて、議事録を作成する。より詳細に説明すると、例えば、議事録サーバ２０１は、議事録ＩＤと対応付けて、発話者名と発話テキストとを含む発言録を記録した議事録を作成する。作成された議事録は、例えば、議事録ＤＢ２４０に登録される。

また、出力部８０６は、入力された音声データ（あるいは、音声データを音声認識処理して得られる音声認識結果）と対応付けて、話者の切り替わりの判定結果を出力することにしてもよい。具体的には、例えば、出力部８０６は、話者が切り替わったと判定された場合に、入力された音声データと対応付けて判定結果を出力する。

設定部８０７は、自装置のモーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲に対応する話者の指定を受け付ける。そして、設定部８０７は、モーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲と対応付けて、指定された話者を識別する情報を記憶部８１０に記憶する。

具体的には、例えば、設定部８０７は、モーションセンサｓ１の計測値に関する範囲ごとに、当該範囲に対応する話者の指定をそれぞれ受け付ける。モーションセンサｓ１の計測値に関する各範囲に対応する話者の指定は、例えば、後述の図１０に示すような話者判定設定画面１０００において行われる。

そして、設定部８０７は、モーションセンサｓ１の計測値に関する範囲ごとに、当該範囲と対応付けて、指定された話者を識別する情報（例えば、発話者名）を話者対応テーブル（傾き判定）２２０ａに記憶する。話者対応テーブル（傾き判定）２２０ａの設定例については、図１１を用いて後述する。なお、話者対応テーブル（傾き判定）２２０ａには、必ずしもすべての回転角に対して話者を識別する情報が設定される必要はない。

また、設定部８０７は、地磁気センサｓ２の計測値に関する範囲ごとに、当該範囲に対応する話者の指定をそれぞれ受け付ける。地磁気センサｓ２の計測値に関する各範囲に対応する話者の指定は、例えば、後述の図１２に示すような話者判定設定画面１２００において行われる。

そして、設定部８０７は、地磁気センサｓ２の計測値に関する範囲ごとに、当該範囲と対応付けて、指定された話者を識別する情報（例えば、発話者名）を話者対応テーブル（方位判定）２２０ｂに記憶する。話者対応テーブル（方位判定）２２０ｂの設定例については、図１３を用いて後述する。なお、話者対応テーブル２２０（方位判定）ｂには、必ずしもすべての方位角に対して話者を識別する情報が設定される必要はない。

また、設定部８０７は、モーションセンサｓ１を用いた第１の判定方式と、地磁気センサｓ２を用いた第２の判定方式とのいずれかの判定方式の選択を受け付けることにしてもよい。具体的には、例えば、設定部８０７は、図３に示した入力装置３０５を用いたユーザの操作入力により、判定方式の選択を受け付ける。判定方式の選択は、例えば、後述の図９に示すような話者判定設定画面９００において行われる。

また、判定部８０５は、選択された判定方式に応じて、モーションセンサｓ１または地磁気センサｓ２の計測値に基づいて、話者の切り替わりを判定することにしてもよい。また、判定部８０５は、選択された判定方式に応じて、モーションセンサｓ１または地磁気センサｓ２の計測値を含む範囲に対応する話者を特定することにしてもよい。

具体的には、例えば、判定部８０５は、第１の判定方式が選択された場合、話者対応テーブル（傾き判定）２２０ａを参照して、特定されたモーションセンサｓ１の計測値を含む範囲に対応する話者を特定する。また、判定部８０５は、第２の判定方式が選択された場合、話者対応テーブル（方位判定）２２０ｂを参照して、特定された地磁気センサｓ２の計測値を含む範囲に対応する話者を特定する。話者対応テーブル（方位判定）２２０ｂに話者が設定されていない場合には、判定部８０５は、そこで音声データの切り替わりが発生していると判定してもよい。

なお、上述した情報処理装置１０１の各機能部は、情報処理システム２００内の複数のコンピュータ（例えば、情報処理装置１０１と議事録サーバ２０１）により実現されることにしてもよい。また、上述した情報処理装置１０１の各機能部は、情報処理システム２００内の他のコンピュータ（例えば、議事録サーバ２０１）により実現されることにしてもよい。

（話者判定設定画面の画面例）
つぎに、情報処理装置１０１のディスプレイ３０４に表示される話者判定設定画面の画面例について説明する。

図９は、話者判定設定画面の画面例を示す説明図（その１）である。図９において、話者判定設定画面９００は、マイクロホンｍｃにより取得された音声データに対応する話者を判定する判定方式の選択を受け付ける操作画面の一例である。

話者判定設定画面９００によれば、ユーザは、利用シーンに応じて、話者を判定する判定方式を任意に選択することができる。例えば、話者判定設定画面９００において、入力装置３０５を用いたユーザの操作入力により、チェックボックス９０２を選択すると、モーションセンサｓ１を用いた傾き判定（第１の判定方式）を選択することができる。

また、話者判定設定画面９００において、チェックボックス９０３を選択すると、地磁気センサｓ２を用いた方位判定（第２の判定方式）を選択することができる。なお、話者判定設定画面９００において、チェックボックス９０１を選択すると、デフォルト判定方式を選択することができる。

デフォルト判定方式は、マイクロホンｍｃにより取得された音声データに対応する話者を、メイン画面４００（図４参照）の話者表示欄４０２に設定された発話者と判定する方式である。デフォルト判定方式が選択された場合、判定部８０５は、入力された音声データに対応する話者として、話者表示欄４０２に設定された発話者名の話者を特定する。

話者判定設定画面９００において、チェックボックス９０２が選択されると、図１０に示すような話者判定設定画面１０００がディスプレイ３０４に表示される。

図１０は、話者判定設定画面の画面例を示す説明図（その２）である。図１０において、話者判定設定画面１０００は、モーションセンサｓ１の計測値に関する各範囲に対応する話者の指定を受け付ける操作画面の一例である。ただし、情報処理装置１０１を、図５に示した使用例のように使用する場合を想定する。

操作パネル１００１は、ボタンｂ１１〜ｂ１４を含む円形の操作部である。各ボタンｂ１１〜ｂ１４は、図５に示した「話者Ａ」、「話者Ｂ」、「話者Ｃ」および「話者Ｄ」の話者間の相対的な位置関係を示している。例えば、情報処理装置１０１のユーザを「話者Ｂ」とした場合、「話者Ａ」は正面に位置する人物に対応する。また、「話者Ｃ」は、向かって左側に位置する人物に対応する。また、「話者Ｄ」は、向かって右側に位置する人物に対応する。

話者判定設定画面１０００において、ボタンｂ１１を選択すると、話者Ａを指定することができる。より詳細に説明すると、例えば、ボタンｂ１１を選択すると、不図示の話者名設定画面が表示され、話者Ａの発話者名を指定することができる。

話者判定設定画面１０００において、ボタンｂ１２を選択すると、話者Ｂを指定することができる。話者判定設定画面１０００において、ボタンｂ１３を選択すると、話者Ｃを指定することができる。話者判定設定画面１０００において、ボタンｂ１４を選択すると、話者Ｄを指定することができる。

話者判定設定画面１０００によれば、ユーザは、自身（例えば、話者Ｂ）と他の話者との相対的な位置関係を考慮しながら、モーションセンサｓ１の計測値に関する各範囲に対応する話者を指定することができる。

話者判定設定画面１０００において、完了ボタン１００２を選択すると、モーションセンサｓ１の計測値に関する各範囲に対応する話者の指定を完了することができる。この結果、設定部８０７により、モーションセンサｓ１の計測値に関する範囲ごとに、指定された話者を識別する情報（例えば、発話者名）が話者対応テーブル（傾き判定）２２０ａに設定される。

図１１は、話者対応テーブル（傾き判定）２２０ａの設定例を示す説明図である。図１１において、話者Ａとして発話者名「太郎」の話者が指定された結果、話者対応情報６００−１の話者フィールドに「太郎」が設定され、回転角（ロール）「−３０〜３０」と対応付けられている。これにより、モーションセンサｓ１により計測された回転角（ロール）が、「−３０度以上３０度以下」の場合は、話者が「太郎」であると特定される。

また、話者Ｂとして発話者名「花子」の話者が指定された結果、話者対応情報６００−２の話者フィールドに「花子」が設定され、回転角（ロール）「−１８０〜−１５０，１５０〜１８０」と対応付けられている。これにより、モーションセンサｓ１により計測された回転角（ロール）が、「−１８０度以上−１５０度以下」または「１５０度以上１８０度以下」の場合は、話者が「花子」であると特定される。

また、話者Ｃとして発話者名「次郎」の話者が指定された結果、話者対応情報６００−３の話者フィールドに「次郎」が設定され、回転角（ロール）「−１２０〜−６０」と対応付けられている。これにより、モーションセンサｓ１により計測された回転角（ロール）が、「−１２０度以上−６０度以下」の場合は、話者が「次郎」であると特定される。

また、話者Ｄとして発話者名「三郎」の話者が指定された結果、話者対応情報６００−４の話者フィールドに「三郎」が設定され、回転角（ロール）「６０〜１２０」と対応付けられている。これにより、モーションセンサｓ１により計測された回転角（ロール）が、「６０度以上１２０度以下」の場合は、話者が「三郎」であると特定される。

また、図９に示した話者判定設定画面９００において、チェックボックス９０３が選択されると、図１２に示すような話者判定設定画面１２００がディスプレイ３０４に表示される。

図１２は、話者判定設定画面の画面例を示す説明図（その３）である。図１２において、話者判定設定画面１２００は、地磁気センサｓ２の計測値に関する各範囲に対応する話者の指定を受け付ける操作画面の一例である。ただし、情報処理装置１０１を、図５に示した使用例のように使用する場合を想定する。

操作パネル１２０１は、ボタンｂ２１〜ｂ２４を含む円形の操作部である。各ボタンｂ２１〜ｂ２４は、図５に示した「話者Ａ」、「話者Ｂ」、「話者Ｃ」および「話者Ｄ」の話者間の相対的な位置関係を示している。矢印１２０２は、真北の方向を示す。なお、操作パネル１２０１内の表示は、情報処理装置１０１の方位の状態に連動して変化する。

例えば、情報処理装置１０１のユーザを「話者Ｂ」とした場合、「話者Ａ」は正面に位置する人物に対応する。また、「話者Ｃ」は、向かって左側に位置する人物に対応する。また、「話者Ｄ」は、向かって右側に位置する人物に対応する。

話者判定設定画面１２００において、ボタンｂ２１を選択すると、話者Ａを指定することができる。より詳細に説明すると、例えば、ボタンｂ２１を選択すると、不図示の話者名設定画面が表示され、話者Ａの発話者名を指定することができる。

話者判定設定画面１２００において、ボタンｂ２２を選択すると、話者Ｂを指定することができる。話者判定設定画面１２００において、ボタンｂ２３を選択すると、話者Ｃを指定することができる。話者判定設定画面１２００において、ボタンｂ２４を選択すると、話者Ｄを指定することができる。

話者判定設定画面１２００によれば、ユーザは、自身（例えば、話者Ｂ）と他の話者との相対的な位置関係および方角（方位）を考慮しながら、地磁気センサｓ２の計測値に関する各範囲に対応する話者を指定することができる。

また、話者判定設定画面１２００において、分割ボタンｂ３１〜ｂ３４を選択すると、区切り線（例えば、１２０３）を増やして、地磁気センサｓ２の計測値に関する範囲を細分化することができる。また、話者判定設定画面１２００において、区切り線（例えば、１２０３）を選択して移動させると、各ボタンｂ２１〜ｂ２４の大きさを変更して、各話者に対応する地磁気センサｓ２の計測値に関する範囲を変更することができる。

また、話者判定設定画面１２００において、完了ボタン１２０４を選択すると、地磁気センサｓ２の計測値に関する各範囲に対応する話者の指定を完了することができる。この結果、設定部８０７により、地磁気センサｓ２の計測値に関する範囲ごとに、指定された話者を識別する情報（例えば、発話者名）が話者対応テーブル（方位判定）２２０ｂに設定される。

図１３は、話者対応テーブル（方位判定）２２０ｂの設定例を示す説明図である。図１３において、話者Ａとして発話者名「マイク」の話者が指定された結果、話者対応情報７００−１の話者フィールドに「マイク」が設定され、方位角（アジマス）「１〜９０」と対応付けられている。これにより、地磁気センサｓ２により計測された方位角（アジマス）が、「１度以上９０度以下」の場合は、話者が「マイク」であると特定される。

また、話者Ｂとして発話者名「ボブ」の話者が指定された結果、話者対応情報７００−２の話者フィールドに「ボブ」が設定され、方位角（アジマス）「−１７９〜−９０」と対応付けられている。これにより、地磁気センサｓ２により計測された方位角（アジマス）が、「−１７９度以上−９０度以下」の場合は、話者が「ボブ」であると特定される。

また、話者Ｃとして発話者名「ナンシー」の話者が指定された結果、話者対応情報７００−３の話者フィールドに「ナンシー」が設定され、方位角（アジマス）「−９１〜０」と対応付けられている。これにより、地磁気センサｓ２により計測された方位角（アジマス）が、「−９１度以上０度以下」の場合は、話者が「ナンシー」であると特定される。

また、話者Ｄとして発話者名「ジェフ」の話者が指定された結果、話者対応情報７００−４の話者フィールドに「ジェフ」が設定され、方位角（アジマス）「９１〜１８０」と対応付けられている。これにより、地磁気センサｓ２により計測された方位角（アジマス）が、「９１度以上１８０度以下」の場合は、話者が「ジェフ」であると特定される。

（会話画面の画面例）
つぎに、図１４を用いて、情報処理装置１０１のディスプレイ３０４に表示される会話画面の画面例について説明する。

図１４は、会話画面の画面例を示す説明図である。図１４において、会話画面１４００は、音声録音された話者の会話を時系列に表示する画面である。ここでは、話者「花子」が話者「太郎」にインタビューした際に録音された発話内容を示すメッセージ１４０１〜１４０５が表示されている。

会話画面１４００は、同一の議事録ＩＤの発話情報をもとに生成される。例えば、メッセージ１４０１は、発話者名「花子」と発話時刻「１０：４３」と発話内容「こんにちは」とを含む。発話者名「花子」は、発話内容「こんにちは」に対応する音声データの入力を受け付けたタイミング（発話時刻）における、モーションセンサｓ１または地磁気センサｓ２の計測値に応じて特定された話者を示す。

会話画面１４００によれば、ユーザは、話者「花子」が話者「太郎」にインタビューした際に録音された各話者の発話内容を確認することができる。なお、会話画面１４００は、例えば、情報処理装置１０１から議事録サーバ２０１にアクセスして、議事録ＩＤを指定することで、ディスプレイ３０４に表示される。また、会話画面１４００は、音声録音中にリアルタイムにディスプレイ３０４に表示されてもよい。

（情報処理装置１０１の各種情報処理手順）
つぎに、図１５〜図１７を用いて、情報処理装置１０１の各種情報処理手順について説明する。まず、図１５を用いて、情報処理装置１０１の音声入力処理手順について説明する。

図１５は、情報処理装置１０１の音声入力処理手順の一例を示すフローチャートである。図１５のフローチャートにおいて、まず、情報処理装置１０１は、録音開始指示を受け付けたか否かを判断する（ステップＳ１５０１）。録音開始指示は、例えば、図４に示したメイン画面４００において、録音開始ボタン４０３が選択されたことに応じて入力される。

ここで、情報処理装置１０１は、録音開始指示を受け付けるのを待つ（ステップＳ１５０１：Ｎｏ）。そして、情報処理装置１０１は、録音開始指示を受け付けた場合（ステップＳ１５０１：Ｙｅｓ）、音声録音を開始する（ステップＳ１５０２）。この結果、マイクロホンｍｃにより取得された音声データがバッファリングされる。

つぎに、情報処理装置１０１は、音声認識サーバ２０２と接続する（ステップＳ１５０３）。そして、情報処理装置１０１は、バッファリングされたデータ（バッファデータ）を、音声認識サーバ２０２に順次送信する（ステップＳ１５０４）。

つぎに、情報処理装置１０１は、録音終了指示を受け付けたか否かを判断する（ステップＳ１５０５）。録音終了指示は、例えば、メイン画面４００において、録音開始ボタン４０３を選択して音声録音が開始された後、録音開始ボタン４０３が再度選択されたことに応じて入力される。

ここで、情報処理装置１０１は、録音終了指示を受け付けていない場合（ステップＳ１５０５：Ｎｏ）、ステップＳ１５０４に戻る。一方、録音終了指示を受け付けた場合（ステップＳ１５０５：Ｙｅｓ）、情報処理装置１０１は、音声録音を終了して（ステップＳ１５０６）、本フローチャートによる一連の処理を終了する。

これにより、マイクロホンｍｃにより取得された音声データを、音声認識サーバ２０２に転送して、音声認識処理を依頼することができる。なお、音声録音が終了すると、音声認識サーバ２０２との接続は切断される。

つぎに、図１６を用いて、情報処理装置１０１のセンシングデータ取得処理手順について説明する。

図１６は、情報処理装置１０１のセンシングデータ取得処理手順の一例を示すフローチャートである。図１６のフローチャートにおいて、まず、情報処理装置１０１は、音声録音が開始されたか否かを判断する（ステップＳ１６０１）。ここで、情報処理装置１０１は、音声録音が開始されるのを待つ（ステップＳ１６０１：Ｎｏ）。

そして、音声録音が開始された場合（ステップＳ１６０１：Ｙｅｓ）、情報処理装置１０１は、各センサｓ１，ｓ２（モーションセンサｓ１、地磁気センサｓ２）にアクセスして、各センサｓ１，ｓ２の計測値を取得する（ステップＳ１６０２）。

つぎに、情報処理装置１０１は、取得した各センサｓ１，ｓ２の計測値と、各センサｓ１，ｓ２の計測値の計測時刻と対応付けて表すセンシングデータを、センシングデータテーブル２３０に記録する（ステップＳ１６０３）。そして、情報処理装置１０１は、音声録音が終了したか否かを判断する（ステップＳ１６０４）。

ここで、音声録音が終了していない場合（ステップＳ１６０４：Ｎｏ）、情報処理装置１０１は、ステップＳ１６０２に戻る。この際、情報処理装置１０１は、例えば、一定時間（例えば、１０ミリ秒）待機してから、ステップＳ１６０２に戻る。一方、音声録音が終了した場合（ステップＳ１６０４：Ｙｅｓ）、情報処理装置１０１は、本フローチャートによる一連の処理を終了する。

これにより、音声録音が開始されてから終了するまでの間、モーションセンサｓ１および地磁気センサｓ２の計測値を一定時間ごとに取得することができる。

つぎに、図１７を用いて、情報処理装置１０１の話者識別処理手順について説明する。

図１７は、情報処理装置１０１の話者識別処理手順の一例を示すフローチャートである。図１７のフローチャートにおいて、まず、情報処理装置１０１は、音声認識サーバ２０２から発話開始シグナルを受信したか否かを判断する（ステップＳ１７０１）。

発話開始シグナルは、発話が開始されたことを示す情報であり、例えば、発話開始タイミングを特定する情報を含む。発話開始タイミングは、情報処理装置１０１において、マイクロホンｍｃにより最初のバッファデータ（音声データ）の入力を受け付けた時点に相当する。最初のバッファデータは、一つの発話（発話区間）を構成する一連のバッファデータのうちの最初のバッファデータである。

例えば、音声認識サーバ２０２は、情報処理装置１０１から最初のバッファデータを受信すると、情報処理装置１０１に発話開始シグナルを送信する。そして、音声認識サーバ２０２は、情報処理装置１０１から受信したバッファデータを順次処理して、音声データの音声認識処理を行う。また、音声認識サーバ２０２は、一つの発話（発話区間）の音声認識処理が完了すると、認識完了シグナルとともに音声認識結果を情報処理装置１０１に送信する。認識完了シグナルは、一つの発話（発話区間）の音声認識処理が完了したことを示す。

ここで、情報処理装置１０１は、音声認識サーバ２０２から発話開始シグナルを受信するのを待つ（ステップＳ１７０１：Ｎｏ）。そして、情報処理装置１０１は、発話開始シグナルを受信すると（ステップＳ１７０１：Ｙｅｓ）、センシングデータテーブル２３０を参照して、発話開始タイミングにおけるセンシングデータを取得する（ステップＳ１７０２）。発話開始タイミングは、発話開始シグナルから特定される。

つぎに、情報処理装置１０１は、話者対応テーブル２２０（話者対応テーブル（傾き判定）２２０ａ、または、話者対応テーブル（方位判定）２２０ｂ）を参照して、取得したセンシングデータに基づいて、発話者名を特定する（ステップＳ１７０３）。発話者名の特定は、例えば、モーションセンサｓ１を用いた第１の判定方式と、地磁気センサｓ２を用いた第２の判定方式とから選択された判定方式により行われる。

そして、情報処理装置１０１は、特定した発話者名を発話者名キューに格納する（ステップＳ１７０４）。発話者名キューは、ＦＩＦＯ（ＦｉｒｓｔＩｎＦｉｒｓｔＯｕｔ）構造のキューである。つぎに、情報処理装置１０１は、音声認識サーバ２０２から認識完了シグナルとともに音声認識結果を受信したか否かを判断する（ステップＳ１７０５）。ここで、情報処理装置１０１は、音声認識サーバ２０２から認識完了シグナルとともに音声認識結果を受信するのを待つ（ステップＳ１７０５：Ｎｏ）。

そして、情報処理装置１０１は、認識完了シグナルとともに音声認識結果を受信した場合（ステップＳ１７０５：Ｙｅｓ）、発話者名キューから最も古い発話者名を取得する（ステップＳ１７０６）。つぎに、情報処理装置１０１は、取得した発話者名と、受信した音声認識結果とを含む発話情報を、議事録サーバ２０１に送信する（ステップＳ１７０７）。

そして、情報処理装置１０１は、話者識別処理を終了するか否かを判断する（ステップＳ１７０８）。ここで、話者識別処理を終了しない場合（ステップＳ１７０８：Ｎｏ）、情報処理装置１０１は、ステップＳ１７０１に戻る。一方、話者識別処理を終了する場合（ステップＳ１７０８：Ｙｅｓ）、情報処理装置１０１は、本フローチャートによる一連の処理を終了する。

これにより、マイクロホンｍｃにより取得された音声データが入力されたタイミングにおける、各センサｓ１，ｓ２の計測値に応じて、音声データに対応する話者を識別し、議事録サーバ２０１に発話情報（発話者名、音声認識結果）を登録することができる。

なお、ステップＳ１７０７において、情報処理装置１０１は、取得した発話者名と、受信した音声認識結果とを対応付けて、メイン画面（例えば、図４参照）や会話画面（例えば、図１４参照）に表示することにしてもよい。

以上説明したように、実施の形態にかかる情報処理装置１０１によれば、自装置に設けられたマイクロホンｍｃにより取得された音声データについて、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサｓ１または地磁気センサｓ２の計測値を特定することができる。そして、情報処理装置１０１によれば、特定したモーションセンサｓ１または地磁気センサｓ２の計測値に基づいて、音声データに対応する話者の切り替わりを判定することができる。

これにより、情報処理装置１０１に内蔵されたモーションセンサｓ１または地磁気センサｓ２を利用して、マイクロホンｍｃにより取得される音声データに対応する話者の切り替わりを判定することができる。例えば、ユーザが、情報処理装置１０１を、どのような姿勢にして使用したか、あるいは、どの方位に向けて使用したかによって、話者の切り替わりを判定することができる。このため、話者が切り替わったタイミングや箇所を特定して、音声データを話者単位に区別することが可能となる。

また、情報処理装置１０１によれば、話者を識別する情報と対応付けて、モーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲を記憶する記憶部８１０（例えば、話者対応テーブル２２０）を参照して、特定したモーションセンサｓ１または地磁気センサｓ２の計測値を含む範囲に対応する話者を特定することができる。

これにより、情報処理装置１０１に内蔵されたモーションセンサｓ１または地磁気センサｓ２を利用して、マイクロホンｍｃにより取得される音声データに対応する話者を識別することができる。例えば、ユーザが、情報処理装置１０１を、どのような姿勢にして使用したか、あるいは、どの方位に向けて使用したかによって、話者を識別することが可能となる。

また、情報処理装置１０１によれば、特定した話者と対応付けて、音声データを音声認識処理して得られる認識結果を出力することができる。

これにより、話者と対応付けて、音声データを音声認識処理して得られる発話内容（テキストデータ）を表示したり、議事録ＤＢ２４０等に記録したりすることができる。

また、情報処理装置１０１によれば、単一指向性のマイクロホンｍｃにより音声データの入力を受け付けることができる。

これにより、ユーザが情報処理装置１０１に設けられたマイクロホンｍｃを話者に向けて使用する際の録音品質を向上させることができる。

また、情報処理装置１０１によれば、モーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲に対応する話者の指定を受け付け、範囲と対応付けて、指定された話者を識別する情報を記憶部８１０に記憶することができる。

これにより、モーションセンサｓ１または地磁気センサｓ２の計測値に関する範囲に対応する話者を任意に設定することができる。例えば、インタビューや会議に参加する者が決まった場合に、各参加者の相対的な位置関係を考慮しながら、センサｓ１，ｓ２の計測値に関する各範囲に対応付けて、各参加者の名称（発話者名）を設定することができる。

また、情報処理装置１０１によれば、モーションセンサｓ１を用いた第１の判定方式と、地磁気センサｓ２を用いた第２の判定方式とのいずれかの判定方式の選択を受け付けることができる。そして、情報処理装置１０１によれば、選択された判定方式に応じて、記憶部８１０を参照して、特定したモーションセンサｓ１または地磁気センサｓ２の計測値を含む範囲に対応する話者を特定することができる。

これにより、利用シーンに応じて、ユーザが判定方式を任意に選択することができる。例えば、予め席順が決まっておらず、事前設定にあまり時間をかけられないときは、情報処理装置１０１をどのような姿勢にして使用したかによって話者を識別可能な第１の判定方式を選択する。また、会議室等の席順が予め決まっており、事前設定に十分に時間をかけられるときは、情報処理装置１０１をどの方位に向けて使用したかによって話者を識別可能な第２の判定方式を選択する。

これらのことから、情報処理装置１０１によれば、スマートフォンや携帯電話機などの汎用のコンピュータを利用した簡易な構成で、話者を識別することが可能となる。また、高性能なＧＰＵなどのハードウェアを搭載することなく、リアルタイムの話者識別を実現することができる。また、複数の指向性マイクを搭載した特殊マイクのようなデバイスが必要ではないため、携帯性に優れており、突然の使用を想定して常に持ち歩くといった使い方をすることができる。

なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。

（付記２）前記判定する処理は、
話者を識別する情報と対応付けて、前記モーションセンサまたは前記地磁気センサの計測値に関する範囲を記憶する記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする付記１に記載の情報処理プログラム。

（付記３）特定した前記話者と対応付けて、前記音声データを音声認識処理して得られる認識結果を出力する、処理を前記コンピュータに実行させることを特徴とする付記２に記載の情報処理プログラム。

（付記４）前記マイクロホンは、単一指向性のマイクロホンである、ことを特徴とする付記１〜３のいずれか一つに記載の情報処理プログラム。

（付記５）前記モーションセンサまたは前記地磁気センサの計測値に関する範囲に対応する話者の指定を受け付け、
前記範囲と対応付けて、指定された前記話者を識別する情報を前記記憶部に記憶する、処理を前記コンピュータに実行させることを特徴とする付記２に記載の情報処理プログラム。

（付記６）前記モーションセンサを用いた判定方式と、前記地磁気センサを用いた判定方式とのいずれかの判定方式の選択を受け付ける、処理を前記コンピュータに実行させ、
前記判定する処理は、
選択された前記判定方式に応じて、前記記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする付記２に記載の情報処理プログラム。

（付記７）前記モーションセンサの計測値は、前記情報処理装置に内蔵された加速度センサにより計測される回転角である、ことを特徴とする付記１〜６のいずれか一つに記載の情報処理プログラム。

（付記８）前記地磁気センサの計測値は、前記情報処理装置に内蔵された地磁気センサにより計測される方位角である、ことを特徴とする付記１〜７のいずれか一つに記載の情報処理プログラム。

（付記９）情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータが実行することを特徴とする情報処理方法。

（付記１０）情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定する特定部と、
前記特定部によって特定された前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する判定部と、
を有することを特徴とする情報処理装置。

１０１情報処理装置
２００情報処理システム
２０１議事録サーバ
２０２音声認識サーバ
２１０ネットワーク
２２０話者対応テーブル
２３０センシングデータテーブル
２４０議事録ＤＢ
３００バス
３０１ＣＰＵ
３０２メモリ
３０３通信Ｉ／Ｆ
３０４ディスプレイ
３０５入力装置
４００メイン画面
８０１受付部
８０２音声認識部
８０３取得部
８０４特定部
８０５判定部
８０６出力部
８０７設定部
８１０記憶部
９００，１０００，１２００話者判定設定画面
１４００会話画面

Claims

情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
前記判定する処理は、
話者を識別する情報と対応付けて、前記モーションセンサまたは前記地磁気センサの計測値に関する範囲を記憶する記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする請求項１に記載の情報処理プログラム。
特定した前記話者と対応付けて、前記音声データを音声認識処理して得られる認識結果を出力する、処理を前記コンピュータに実行させることを特徴とする請求項２に記載の情報処理プログラム。
前記マイクロホンは、単一指向性のマイクロホンである、ことを特徴とする請求項１〜３のいずれか一つに記載の情報処理プログラム。
前記モーションセンサまたは前記地磁気センサの計測値に関する範囲に対応する話者の指定を受け付け、
前記範囲と対応付けて、指定された前記話者を識別する情報を前記記憶部に記憶する、処理を前記コンピュータに実行させることを特徴とする請求項２に記載の情報処理プログラム。
前記モーションセンサを用いた判定方式と、前記地磁気センサを用いた判定方式とのいずれかの判定方式の選択を受け付ける、処理を前記コンピュータに実行させ、
前記判定する処理は、
選択された前記判定方式に応じて、前記記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする請求項２に記載の情報処理プログラム。
情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータが実行することを特徴とする情報処理方法。
情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定する特定部と、
前記特定部によって特定された前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する判定部と、
を有することを特徴とする情報処理装置。