JP2021121834A - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP2021121834A
JP2021121834A JP2020014869A JP2020014869A JP2021121834A JP 2021121834 A JP2021121834 A JP 2021121834A JP 2020014869 A JP2020014869 A JP 2020014869A JP 2020014869 A JP2020014869 A JP 2020014869A JP 2021121834 A JP2021121834 A JP 2021121834A
Authority
JP
Japan
Prior art keywords
speaker
information processing
processing device
voice data
motion sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020014869A
Other languages
English (en)
Inventor
圭悟 本杉
Keigo Motosugi
圭悟 本杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020014869A priority Critical patent/JP2021121834A/ja
Priority to US17/103,823 priority patent/US20210241763A1/en
Publication of JP2021121834A publication Critical patent/JP2021121834A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声データを話者単位に区別可能にすること。【解決手段】会話画面1400は、音声録音された話者の会話を時系列に表示する画面である。会話画面1400には、話者「花子」が話者「太郎」にインタビューした際に録音された発話内容を示すメッセージ1401〜1405が表示されている。例えば、メッセージ1401は、発話者名「花子」と発話時刻「10:43」と発話内容「こんにちは」とを含む。情報処理装置101は、発話内容「こんにちは」に対応する音声データの入力を受け付けたタイミング(発話時刻)における、自装置のモーションセンサs1または地磁気センサs2の計測値に応じて、発話者名「花子」を特定する。【選択図】図14

Description

本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。
従来、音声認識システムにおける話者識別方式として、予め登録された発話者の音声データと、録音された音声データとの波形マッチングを行って、話者を特定するものがある。また、複数の指向性マイクを搭載した特殊マイクを使用して、発話方向と話者とを対応付けて、話者を特定するものがある。
先行技術としては、撮像された視界の画像データから話者の顔画像データおよび顔特徴データの少なくとも一方を抽出し、その顔画像データおよび顔特徴データならびに周囲の音の音信号の少なくとも一つに基づいて、話者の音声信号を特定して抽出する眼鏡型表示装置がある。
特開2012‐59121号公報
しかしながら、従来技術では、複数の指向性マイクや特殊マイクを搭載しないスマートフォンや携帯電話機などにおいて入力される音声データを話者単位に区別することが難しい。
一つの側面では、本発明は、音声データを話者単位に区別可能にすることを目的とする。
一つの実施態様では、情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、情報処理プログラムが提供される。
本発明の一側面によれば、音声データを話者単位に区別可能にすることができるという効果を奏する。
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。 図2は、情報処理システム200のシステム構成例を示す説明図である。 図3は、情報処理装置101のハードウェア構成例を示すブロック図である。 図4は、メイン画面の画面例を示す説明図である。 図5は、情報処理装置101の使用例を示す説明図である。 図6は、話者対応テーブル(傾き判定)220aの記憶内容の一例を示す説明図である。 図7は、話者対応テーブル(方位判定)220bの記憶内容の一例を示す説明図である。 図8は、情報処理装置101の機能的構成例を示すブロック図である。 図9は、話者判定設定画面の画面例を示す説明図(その1)である。 図10は、話者判定設定画面の画面例を示す説明図(その2)である。 図11は、話者対応テーブル(傾き判定)220aの設定例を示す説明図である。 図12は、話者判定設定画面の画面例を示す説明図(その3)である。 図13は、話者対応テーブル(方位判定)220bの設定例を示す説明図である。 図14は、会話画面の画面例を示す説明図である。 図15は、情報処理装置101の音声入力処理手順の一例を示すフローチャートである。 図16は、情報処理装置101のセンシングデータ取得処理手順の一例を示すフローチャートである。 図17は、情報処理装置101の話者識別処理手順の一例を示すフローチャートである。
以下に図面を参照して、本発明にかかる情報処理プログラム、情報処理方法および情報処理装置の実施の形態を詳細に説明する。
(実施の形態)
図1は、実施の形態にかかる情報処理方法の一実施例を示す説明図である。図1において、情報処理装置101は、自装置に設けられたマイクロホンmcにより取得される音声データを、話者単位に区別可能にするコンピュータである。マイクロホンmcは、集音した音声を電気信号に変換する装置である。
マイクロホンmcは、情報処理装置101に内蔵されたマイクロホンであってもよく、また、情報処理装置101に取り付け可能な外付けのマイクロホンであってもよい。音声データは、例えば、一定時間単位のデータであってもよく、また、発話区間単位のデータであってもよい。
ここで、音声認識システムにおける話者識別方式として、AI(Artificial Intelligence)による話者識別方式がある。例えば、予め登録された発話者の音声データと、録音された音声データとの波形マッチングを行って、話者を特定するものがある。
しかし、この話者識別方式では、複数人の発話が重なると判定精度が低下するという問題がある。また、AIによる話者識別方式では、計算量が多くなる傾向があり、リアルタイムの話者識別には、高性能なGPU(Graphics Processing Unit)などのハードウェアが必要となるという問題がある。
また、複数の指向性マイクを搭載した特殊マイクを使用して、発話方向と話者とを対応付けて、話者を特定する話者識別方式がある。しかし、この話者識別方式では、特殊なデバイスが必要となり、携帯性に難があるという問題がある。例えば、突然の使用を想定して特殊なデバイスを常に持ち歩くといった使い方をすることは難しい。
そこで、本実施の形態では、情報処理装置101のモーションセンサs1または地磁気センサs2を利用して、マイクロホンmcにより取得される音声データに対応する話者の切り替わりを判定する情報処理方法について説明する。以下、情報処理装置101の処理例について説明する。
ただし、情報処理装置101を使用して音声を録音するにあたり、ユーザは、情報処理装置101に設けられたマイクロホンmcを話者に向けて使用する。図1の例では、ユーザAが情報処理装置101を使用して、ユーザBにインタビューするとする。この場合、ユーザAは、自身が発話するときは、マイクロホンmcを自分側に向け、ユーザBが発話するときは、マイクロホンmcを相手側に向けて使用する。
(1)情報処理装置101は、自装置に設けられたマイクロホンmcにより取得された音声データの入力を受け付ける。具体的には、例えば、情報処理装置101は、マイクロホンmcにより集音された音声を電子信号に変換した音声データの入力を、マイクロホンmcから受け付ける。音声データは、例えば、音の強度の時間変化を示す波形データである。
(2)情報処理装置101は、マイクロホンmcにより取得された音声データについて、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサs1または地磁気センサs2の計測値を特定する。
ここで、モーションセンサs1は、物体(情報処理装置101)の加速度、傾き、方向などを計測する装置である。モーションセンサs1は、例えば、加速度センサやジャイロセンサなどを組み合わせて実現される。地磁気センサs2は、地磁気を検出して方位を計測する装置である。
音声データの入力を受け付けたタイミングは、例えば、マイクロホンmcにより音声データの入力を受け付けた時点である。また、音声データの入力を受け付けたタイミングは、音声データの入力が開始されてから終了するまでのいずれかの時点(例えば、音声入力開始時点)であってもよい。
ここでは、モーションセンサs1の計測値として、情報処理装置101本体の傾きの角度θが計測される場合を想定する。角度θは、例えば、情報処理装置101の本体中心を通る上方向の軸111と水平面112との角度によって表される。ただし、情報処理装置101の形状を略矩形の板状とし、情報処理装置101の前面(例えば、画面側)の長手方向を上下方向とする。また、情報処理装置101の前面(または、背面)が水平面112と平行な状態のときの角度θを0度とし、情報処理装置101の上端側を起こすにつれて、角度θが大きくなるものとする。また、マイクロホンmcは、情報処理装置101の上端側に設けられる。
(2)情報処理装置101は、特定したモーションセンサs1または地磁気センサs2の計測値に基づいて、マイクロホンmcにより取得された音声データに対応する話者の切り替わりを判定する。話者の切り替わりを判定するとは、例えば、音声を発する者が、それまでの者とは別の者になったか否かを判定することである。
具体的には、例えば、情報処理装置101は、モーションセンサs1または地磁気センサs2の計測値の変化量が、予め設定された閾値以上となったことに応じて、話者が切り替わったと判定することにしてもよい。計測値の変化量は、音声データの入力を受け付けたタイミングよりも前のタイミング(例えば、一つ前の音声データの入力を受け付けたタイミングなど)における計測値からの変化量である。
また、情報処理装置101は、モーションセンサs1または地磁気センサs2の計測値が、予め設定された第1の範囲内から第2の範囲内となったことに応じて、話者が切り替わったと判定することにしてもよい。例えば、最初に音声データの入力を受け付けたタイミングにおけるモーションセンサs1の計測値(角度θ)を「θ=45度」とする。
この場合、情報処理装置101は、音声データの入力を受け付けたタイミングにおける、角度θが0度以上90度未満の範囲内のときは、話者が切り替わっていないと判定する。一方、音声データの入力を受け付けたタイミングにおける角度θが、0度以上90度未満の範囲外となった場合、情報処理装置101は、話者が切り替わったと判定する。
図1の例では、角度θが0度以上90度未満の範囲内のときは、入力された音声データは、ある話者(ユーザA)に対応する音声データであると判断することができる。角度θが90度以上180度未満の範囲内となったら、話者が切り替わり、入力された音声データは、別の話者(ユーザB)に対応する音声データであると判断することができる。
このように、情報処理装置101によれば、マイクロホンmcにより取得された音声データに対応する話者の切り替わりを判定可能となり、音声データを話者単位で区別することが可能となる。例えば、ユーザが、情報処理装置101を、どのような姿勢(状態)にして使用したか、あるいは、どの方位に向けて使用したかによって、話者の切り替わりを判定することができる。また、話者の切り替わりとは、必ずしも複数の話者の切り替わりである必要はなく、例えば、1人の話者が話をしている中で、情報処理装置101の角度θが異なる範囲になった場合にも、話者が切り替わったと判定してもよい。この場合、切り替わったと判定されたタイミングで、1人の話者による発話の区切りが生じたとみなすことができる。
図1の例では、マイクロホンmcにより取得された音声データの入力を受け付けたタイミングにおける、モーションセンサs1の計測値(角度θ)から、話者の切り替わりを判定して、音声データを話者単位(ユーザAまたはユーザB)に区別することが可能となる。具体的には、例えば、情報処理装置101は、話者が切り替わったと判定した場合に、入力された音声データと対応付けて判定結果を出力する。これにより、話者が切り替わったタイミングや箇所を特定可能となり、音声データを話者単位に区別することが可能となる。
(情報処理システム200のシステム構成例)
つぎに、図1に示した情報処理装置101を含む情報処理システム200のシステム構成例について説明する。情報処理システム200は、例えば、録音した音声から発言録や議事録を自動作成するサービスに適用される。
図2は、情報処理システム200のシステム構成例を示す説明図である。図2において、情報処理システム200は、情報処理装置101と、議事録サーバ201と、音声認識サーバ202と、を含む。情報処理システム200において、情報処理装置101、議事録サーバ201および音声認識サーバ202は、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。
ここで、情報処理装置101は、情報処理システム200のユーザが使用するコンピュータである。例えば、情報処理装置101は、スマートフォン、携帯電話機、タブレット型端末などである。情報処理装置101は、話者対応テーブル220およびセンシングデータテーブル230を有する。
話者対応テーブル220は、話者対応テーブル(傾き判定)220aと、話者対応テーブル(方位判定)220bとを含む。なお、話者対応テーブル(傾き判定)220aおよび話者対応テーブル(方位判定)220bの記憶内容については、図6および図7を用いて後述する。
センシングデータテーブル230は、センシングデータを記憶する。センシングデータは、後述の図3に示す各種センサ306の計測値を、当該計測値が計測された時点を特定する情報(例えば、計測時刻)と対応付けて表す情報である。
議事録サーバ201は、議事録DB(Database)240を有し、発言録や議事録を記録するコンピュータである。議事録DB240は、例えば、議事録IDと対応付けて、発話情報を記憶する。議事録IDは、議事録を一意に識別する識別子である。発話情報は、発話者名と発話テキストを含む。
音声認識サーバ202は、音声データをテキストデータに変換するコンピュータである。音声データをテキスト化する技術としては、既存のいかなる技術を用いることにしてもよい。例えば、音声認識サーバ202は、深層学習などの機械学習に基づく手法により、音声データから音声を認識して、文字(テキストデータ)に変換する。
なお、図2の例では、議事録サーバ201と音声認識サーバ202とを別々のコンピュータで実現することにしたが、これに限らない。例えば、音声認識サーバ202は、議事録サーバ201により実現することにしてもよい。また、情報処理システム200には、複数の情報処理装置101が含まれていてもよい。
情報処理システム200において、ユーザは、例えば、情報処理装置101から議事録サーバ201に接続して、議事録作成サービスを利用することができる。議事録作成サービスは、録音した音声から発言録や議事録を自動作成したり、自動作成された発言録や議事録を閲覧したり編集したりすることができるサービスである。
情報処理装置101から議事録サーバ201に接続するための情報(URL、認証トークン、議事録IDなど)は、例えば、所定のQR(Quick Response)コードから得ることができる。所定のQRコードは、例えば、サービス提供者により、ユーザが使用するPC(Personal Computer)などに表示される。QRコードは、登録商標である。
また、音声認識サーバ202は、情報処理装置101から音声データを受信すると、受信した音声データを音声認識処理してテキストデータに変換し、変換したテキストデータ(音声認識結果)を情報処理装置101に送信する。音声認識結果は、例えば、発話区間単位の認識結果である。発話区間は、音声(発話)が連続して検出された区間である。
なお、情報処理装置101から音声認識サーバ202に接続するための情報(URL、接続キーなど)は、例えば、議事録サーバ201から取得することができる。
(情報処理装置101のハードウェア構成例)
つぎに、図3を用いて、情報処理装置101のハードウェア構成例について説明する。
図3は、情報処理装置101のハードウェア構成例を示すブロック図である。図3において、情報処理装置101は、CPU(Central Processing Unit)301と、メモリ302と、通信I/F(Interface)303と、ディスプレイ304と、入力装置305と、各種センサ306と、マイクロホンmcと、を有する。また、各構成部はバス300によってそれぞれ接続される。
ここで、CPU301は、情報処理装置101の全体の制御を司る。CPU301は、複数のコアを有していてもよい。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMがOS(Operating System)のプログラムを記憶し、ROMがアプリケーションプログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
通信I/F303は、通信回線を通じてネットワーク210(図2参照)に接続され、ネットワーク210を介して外部のコンピュータ(例えば、議事録サーバ201、音声認識サーバ202)に接続される。そして、通信I/F303は、ネットワーク210と自装置内部とのインターフェースを司り、外部装置からのデータの入出力を制御する。
ディスプレイ304は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する表示装置である。ディスプレイ304としては、例えば、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイなどを採用することができる。ディスプレイ304は、例えば、後述の図4や図5に示すように、情報処理装置101の前面に設けられる。
入力装置305は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置305は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。
各種センサ306は、各種情報を計測するセンサ群である。各種センサ306は、例えば、モーションセンサs1と、地磁気センサs2とを含む。モーションセンサs1は、物体(情報処理装置101)の加速度、傾き、方向などを計測する。モーションセンサs1は、例えば、加速度センサにより実現される。地磁気センサs2は、地磁気を検出して方位を計測する。
マイクロホンmcは、集音した音声を電気信号に変換する装置である。マイクロホンmcにより集音された音声は、A/D(Analog/Digital)変換されて、音声データとして出力される。マイクロホンmcは、例えば、単一指向性のマイクロホンである。単一指向性とは、特定の方向の音を捉えやすい性質である。
以下の説明では、マイクロホンmcとして、情報処理装置101に取り付け可能(接続可能)な外付けのマイクロホンを例に挙げて説明する。
なお、情報処理装置101は、上述した構成部のほかに、例えば、スピーカ、ディスクドライブ、ディスク、可搬型記録媒体I/F、可搬型記録媒体などを有することにしてもよい。また、各種センサ306は、GPS(Global Positioning System)ユニットを含むことにしてもよい。GPSユニットは、GPS衛星からの電波を受信し、情報処理装置101の位置情報を出力する。情報処理装置101の位置情報は、例えば、緯度、経度などの地球上の1点を特定する情報である。衛星として、例えば、準天頂衛星システムの衛星を用いることにしてもよい。また、図2に示した議事録サーバ201および音声認識サーバ202については、例えば、CPU、メモリ、ディスクドライブ、ディスク、通信I/F、可搬型記録媒体I/F、可搬型記録媒体などにより実現される。
(メイン画面の画面例)
つぎに、情報処理装置101のディスプレイ304に表示されるメイン画面の画面例について説明する。メイン画面は、音声録音を行う場合に表示される操作画面であり、例えば、情報処理装置101から議事録サーバ201に接続した際に表示される。
図4は、メイン画面の画面例を示す説明図である。図4において、メイン画面400は、接続情報表示ボタン401と、話者表示欄402と、録音開始ボタン403と、集音波形ボックス404と、調整スライダー405と、発話表示領域406と、話者判定設定ボタン407と、を含む。
メイン画面400において、図3に示した入力装置305を用いたユーザの操作入力により、接続情報表示ボタン401を選択すると、不図示の接続情報ダイアログが表示される。接続情報ダイアログには、例えば、接続先URL(議事録サーバ201)、議事録ID、議事録名などが表示される。
話者表示欄402には、発話者の表示名(発話者名)が表示される。メイン画面400において、話者表示欄402を選択すると、発話者名を変更することができる。メイン画面400において、録音開始ボタン403を選択すると、録音を開始することができる。例えば、ユーザは、録音開始ボタン403を選択した後、発話者にマイクロホンmcを向けながら、インタビューや会議を行う。
集音波形ボックス404には、現在集音中の音声の波形データ(例えば、波形データ410)が表示される。調整スライダー405は、集音レベル(マイクロホンmcの感度)を調整するための操作部である。発話表示領域406には、最後に発話した内容が表示される。
また、メイン画面400において、話者判定設定ボタン407を選択すると、話者判定設定画面を表示することができる。話者判定設定画面は、話者判定に関する各種設定を行うための操作画面である。話者判定設定画面の画面例については、図9、図10および図12を用いて後述する。
(情報処理装置101の使用例)
ここで、情報処理装置101の使用例について説明する。
図5は、情報処理装置101の使用例を示す説明図である。ここでは、情報処理装置101の形状を略矩形の板状とし、情報処理装置101の上端部にマイクロホンmc(図5では、不図示)が取り付けられる場合を想定する。また、4人の話者を識別する場合を想定し、4人の話者を、「話者A」、「話者B」、「話者C」および「話者D」と表記する。情報処理装置101のユーザは、話者Bの方向にいるものとする。
話者Aの音声を録音する場合、ユーザは、情報処理装置101を持って、情報処理装置101を画面上向きの状態にし、マイクロホンmcを話者Aに向けて使用する。画面上向きの状態とは、ディスプレイ304を水平面と平行に垂直上向きにした状態である。図中、軸500は、情報処理装置101の中心を通る上下方向の軸である。
話者Bの音声を録音する場合、ユーザは、情報処理装置101を持った手首を動かして、情報処理装置101を画面下向きの状態にし、マイクロホンmcを話者Bに向けて使用する。この際、情報処理装置101は、ユーザの手首の動きにより、軸500を中心に時計回りまたは反時計回りに180度程度回転した状態となる。
話者Cの音声を録音する場合、ユーザは、情報処理装置101を持った手首を動かして、情報処理装置101を画面手前左傾けの状態にし、マイクロホンmcを話者Cに向けて使用する。画面手前左傾けの状態とは、ディスプレイ304がユーザと対向する状態で、情報処理装置101の上端部を左に傾けた状態である。この際、情報処理装置101は、ユーザの手首の動きにより、軸500を中心に反時計回りに60度程度回転した状態となる。
話者Dの音声を録音する場合、ユーザは、情報処理装置101を持った手首を動かして、情報処理装置101を画面手前右傾けの状態にし、マイクロホンmcを話者Dに向けて使用する。この際、情報処理装置101は、ユーザの手首の動きにより、軸500を中心に時計回りに60度程度回転した状態となる。
(話者対応テーブル220の記憶内容)
つぎに、図6および図7を用いて、情報処理装置101が有する話者対応テーブル220の記憶内容について説明する。話者対応テーブル220は、例えば、図3に示したメモリ302により実現される。ただし、情報処理装置101を、図5に示した使用例のように使用する場合を想定する。
図6は、話者対応テーブル(傾き判定)220aの記憶内容の一例を示す説明図である。図6において、話者対応テーブル(傾き判定)220aは、話者および回転角(ロール)のフィールドを有し、各フィールドに情報を設定することで、話者対応情報600−1〜600−4をレコードとして記憶する。
ここで、話者は、音声の録音対象となる話し手である。ただし、図6中、話者A,B,C,Dは、情報処理装置101上で話者を区別するための仮の発話者名であり、初期状態では実際の人物の名称等が設定されていなくてもよい。回転角(ロール)は、情報処理装置101のモーションセンサs1により計測される計測値の一つである。
回転角(ロール)は、基準軸を中心に情報処理装置101を回転させたときの角度である。ただし、基準軸は、情報処理装置101の中心を通る上下方向の軸(例えば、図5に示した軸500)である。また、時計回りを正の向きとし、反時計回りを負の向きとする。また、情報処理装置101を画面上向きの状態にしたときの回転角(ロール)を「0度」とする。
例えば、話者対応情報600−1は、話者Aに対応する回転角(ロール)の範囲「−30度以上30度以下」を示す。これは、ユーザが、情報処理装置101を画面上向きの状態にして、マイクロホンmcを話者Aに向けた場合、ある程度のブレを考慮すると、回転角(ロール)が範囲「−30度以上30度以下」となることを意味している。
また、例えば、話者対応情報600−4は、話者Dに対応する回転角(ロール)の範囲「60度以上120度以下」を示す。これは、ユーザが、情報処理装置101を持った手首を動かしてマイクロホンmcを話者Dに向けた場合、ある程度のブレを考慮すると、回転角(ロール)が範囲「60度以上120度以下」となることを意味している。
なお、ここでは、各話者に対応付けるモーションセンサs1の計測値に関する範囲として、回転角(ロール)の範囲を例に挙げて説明したが、これに限らない。例えば、各話者に対応付けるモーションセンサs1の計測値に関する範囲として、情報処理装置101本体の傾きを表す傾斜角(ピッチ)の範囲を用いることにしてもよい。また、各話者に対応付けるモーションセンサs1の計測値に関する範囲として、傾斜角(ピッチ)と回転角(ロール)との組み合わせを用いることにしてもよい。
各話者に対応付けるモーションセンサs1の計測値に関する範囲は、任意に設定可能である。例えば、設定者が、情報処理装置101をどのような姿勢にして各話者の音声を録音するかを決めた上で、情報処理装置101の姿勢を変化させながらモーションセンサs1の計測値を確認して、各範囲を設定する。設定者は、例えば、情報処理システム200の管理者や情報処理装置101のユーザなどである。
図7は、話者対応テーブル(方位判定)220bの記憶内容の一例を示す説明図である。図7において、話者対応テーブル(方位判定)220bは、話者および方位角(アジマス)のフィールドを有し、各フィールドに情報を設定することで、話者対応情報700−1〜700−4をレコードとして記憶する。
ここで、話者は、音声の録音対象となる話し手である。方位角(アジマス)は、情報処理装置101の地磁気センサs2により計測される計測値の一つである。方位角(アジマス)は、基準となる方位との間の角度である。基準となる方位は、例えば、真北の方向である。ただし、時計回りを正の向きとし、反時計回りを負の向きとする。
例えば、話者対応情報700−1は、話者Aに対応する方位角(アジマス)の範囲「1度以上90度以下」を示す。これは、ユーザが、情報処理装置101を画面上向きの状態にして、マイクロホンmcを話者Aに向けた場合、ある程度のブレを考慮すると、方位角(アジマス)が範囲「1度以上90度以下」となることを意味している。
(情報処理装置101の機能的構成例)
図8は、情報処理装置101の機能的構成例を示すブロック図である。図8において、情報処理装置101は、受付部801と、音声認識部802と、取得部803と、特定部804と、判定部805と、出力部806と、設定部807と、記憶部810と、を含む。具体的には、例えば、受付部801〜設定部807は、図3に示したメモリ302、不図示のディスク、可搬型記録媒体などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、通信I/F303により、その機能を実現する。各機能部の処理結果は、例えば、メモリ302に記憶される。また、記憶部810は、例えば、メモリ302により実現される。具体的には、例えば、記憶部810は、図2に示した話者対応テーブル220やセンシングデータテーブル230を記憶する。
受付部801は、自装置に設けられたマイクロホンmcにより取得された音声データの入力を受け付ける。具体的には、例えば、受付部801は、マイクロホンmcにより集音された音声を電子信号に変換した音声データの入力を、マイクロホンmcから受け付ける。入力された音声データは、例えば、メモリ302にバッファリングされる。バッファリングされるデータ(バッファデータ)は、例えば、1秒単位の音声データである。
音声認識部802は、入力された音声データを音声認識処理して得られる音声認識結果を取得する。音声認識結果は、例えば、音声データに対応する話者の発話内容を示すテキストデータである。具体的には、例えば、音声認識部802は、入力された音声データ(例えば、バッファデータ)を、図2に示した音声認識サーバ202に送信する。
音声データには、例えば、当該音声データが入力された時点を特定する情報(時刻情報など)が含まれる。そして、音声認識部802は、音声認識サーバ202から音声認識結果を受信することにより、入力された音声データを音声認識処理して得られる音声認識結果を取得する。ただし、音声認識処理は、情報処理装置101において行われることにしてもよい。
取得部803は、各種センサ306の計測値を取得する。具体的には、例えば、取得部803は、自装置のモーションセンサs1の計測値を、一定時間ごと、または、計測値に変化がある度に取得する。また、取得部803は、自装置の地磁気センサs2の計測値を、一定時間ごと、または、計測値に変化がある度に取得する。一定時間は、例えば、10ミリ秒程度の時間である。
取得されたモーションセンサs1の計測値および地磁気センサs2の計測値は、例えば、各計測値の計測時刻と対応付けて、センシングデータテーブル230に記憶される。
特定部804は、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサs1または地磁気センサs2の計測値を特定する。モーションセンサs1の計測値は、例えば、情報処理装置101に内蔵されたモーションセンサs1(加速度センサ)により計測される回転角(ロール)である。地磁気センサs2の計測値は、例えば、情報処理装置101に内蔵された地磁気センサs2により計測される方位角(アジマス)である。
具体的には、例えば、まず、特定部804は、音声データの入力を受け付けたタイミングを特定する。音声データの入力を受け付けたタイミングは、例えば、音声データの入力が開始された時点である。例えば、音声データが発話区間単位のデータの場合、音声データの入力を受け付けたタイミングは、発話が開始されたタイミングに相当する。
つぎに、特定部804は、センシングデータテーブル230を参照して、特定したタイミングにおけるモーションセンサs1または地磁気センサs2の計測値を特定する。特定される計測値は、例えば、音声データの入力を受け付けたタイミングと一致または最も近い計測時刻に対応付けられた計測値である。
判定部805は、特定されたモーションセンサs1または地磁気センサs2の計測値に基づいて、入力された音声データに対応する話者の切り替わりを判定する。具体的には、例えば、判定部805は、モーションセンサs1または地磁気センサs2の計測値が、予め設定された第1の範囲内から第2の範囲内となったことに応じて、マイクロホンmcにより取得された音声データに対応する話者の切り替わりを判定する。
また、判定部805は、記憶部810を参照して、特定されたモーションセンサs1または地磁気センサs2の計測値を含む範囲に対応する話者を、入力された音声データに対応する話者として特定する。ここで、記憶部810は、話者を識別する情報と対応付けて、モーションセンサs1または地磁気センサs2の計測値に関する範囲を記憶する。
具体的には、例えば、判定部805は、話者対応テーブル(傾き判定)220aを参照して、特定されたモーションセンサs1の計測値を含む範囲に対応する話者を特定する。また、判定部805は、話者対応テーブル(方位判定)220bを参照して、特定された地磁気センサs2の計測値を含む範囲に対応する話者を特定する。
話者の特定例については、図11および図13を用いて後述する。なお、特定されたモーションセンサs1または地磁気センサs2の計測値を含む範囲が存在しない場合は、判定部805は、直前に特定した話者と同じ話者を特定することにしてもよい。この際、直前に特定した話者が存在しない場合は、判定部805は、予め設定された特定の話者を特定することにしてもよい。
出力部806は、特定された話者と対応付けて、入力された音声データを音声認識処理して得られる認識結果を出力する。出力部806の出力形式としては、例えば、メモリ302への記憶、通信I/F303による他のコンピュータ(例えば、図2に示した議事録サーバ201)への送信、ディスプレイ304への表示、不図示のプリンタへの印刷出力などがある。
具体的には、例えば、出力部806は、特定された話者を識別する情報(発話者名など)と対応付けて、取得された音声認識結果を、図4に示したメイン画面400に表示することにしてもよい。例えば、話者を識別する情報(発話者名など)が話者表示欄402に表示され、音声認識結果が発話表示領域406に表示される。
また、出力部806は、特定された話者を識別する情報(発話者名など)と対応付けて、取得された音声認識結果を会話画面に表示することにしてもよい。会話画面は、音声録音された話者の会話を表示する画面である。会話画面の画面例については、図14を用いて後述する。
また、出力部806は、特定された話者を識別する情報(発話者名など)と、取得された音声認識結果(発話テキスト)とを含む発話情報を、議事録サーバ201に送信することにしてもよい。発話情報には、例えば、議事録IDが含まれていてもよい。議事録IDは、例えば、議事録サーバ201に接続するための情報を記録したQRコードから得られる。
議事録サーバ201は、受信した発話情報に基づいて、議事録を作成する。より詳細に説明すると、例えば、議事録サーバ201は、議事録IDと対応付けて、発話者名と発話テキストとを含む発言録を記録した議事録を作成する。作成された議事録は、例えば、議事録DB240に登録される。
また、出力部806は、入力された音声データ(あるいは、音声データを音声認識処理して得られる音声認識結果)と対応付けて、話者の切り替わりの判定結果を出力することにしてもよい。具体的には、例えば、出力部806は、話者が切り替わったと判定された場合に、入力された音声データと対応付けて判定結果を出力する。
設定部807は、自装置のモーションセンサs1または地磁気センサs2の計測値に関する範囲に対応する話者の指定を受け付ける。そして、設定部807は、モーションセンサs1または地磁気センサs2の計測値に関する範囲と対応付けて、指定された話者を識別する情報を記憶部810に記憶する。
具体的には、例えば、設定部807は、モーションセンサs1の計測値に関する範囲ごとに、当該範囲に対応する話者の指定をそれぞれ受け付ける。モーションセンサs1の計測値に関する各範囲に対応する話者の指定は、例えば、後述の図10に示すような話者判定設定画面1000において行われる。
そして、設定部807は、モーションセンサs1の計測値に関する範囲ごとに、当該範囲と対応付けて、指定された話者を識別する情報(例えば、発話者名)を話者対応テーブル(傾き判定)220aに記憶する。話者対応テーブル(傾き判定)220aの設定例については、図11を用いて後述する。なお、話者対応テーブル(傾き判定)220aには、必ずしもすべての回転角に対して話者を識別する情報が設定される必要はない。
また、設定部807は、地磁気センサs2の計測値に関する範囲ごとに、当該範囲に対応する話者の指定をそれぞれ受け付ける。地磁気センサs2の計測値に関する各範囲に対応する話者の指定は、例えば、後述の図12に示すような話者判定設定画面1200において行われる。
そして、設定部807は、地磁気センサs2の計測値に関する範囲ごとに、当該範囲と対応付けて、指定された話者を識別する情報(例えば、発話者名)を話者対応テーブル(方位判定)220bに記憶する。話者対応テーブル(方位判定)220bの設定例については、図13を用いて後述する。なお、話者対応テーブル220(方位判定)bには、必ずしもすべての方位角に対して話者を識別する情報が設定される必要はない。
また、設定部807は、モーションセンサs1を用いた第1の判定方式と、地磁気センサs2を用いた第2の判定方式とのいずれかの判定方式の選択を受け付けることにしてもよい。具体的には、例えば、設定部807は、図3に示した入力装置305を用いたユーザの操作入力により、判定方式の選択を受け付ける。判定方式の選択は、例えば、後述の図9に示すような話者判定設定画面900において行われる。
また、判定部805は、選択された判定方式に応じて、モーションセンサs1または地磁気センサs2の計測値に基づいて、話者の切り替わりを判定することにしてもよい。また、判定部805は、選択された判定方式に応じて、モーションセンサs1または地磁気センサs2の計測値を含む範囲に対応する話者を特定することにしてもよい。
具体的には、例えば、判定部805は、第1の判定方式が選択された場合、話者対応テーブル(傾き判定)220aを参照して、特定されたモーションセンサs1の計測値を含む範囲に対応する話者を特定する。また、判定部805は、第2の判定方式が選択された場合、話者対応テーブル(方位判定)220bを参照して、特定された地磁気センサs2の計測値を含む範囲に対応する話者を特定する。話者対応テーブル(方位判定)220bに話者が設定されていない場合には、判定部805は、そこで音声データの切り替わりが発生していると判定してもよい。
なお、上述した情報処理装置101の各機能部は、情報処理システム200内の複数のコンピュータ(例えば、情報処理装置101と議事録サーバ201)により実現されることにしてもよい。また、上述した情報処理装置101の各機能部は、情報処理システム200内の他のコンピュータ(例えば、議事録サーバ201)により実現されることにしてもよい。
(話者判定設定画面の画面例)
つぎに、情報処理装置101のディスプレイ304に表示される話者判定設定画面の画面例について説明する。
図9は、話者判定設定画面の画面例を示す説明図(その1)である。図9において、話者判定設定画面900は、マイクロホンmcにより取得された音声データに対応する話者を判定する判定方式の選択を受け付ける操作画面の一例である。
話者判定設定画面900によれば、ユーザは、利用シーンに応じて、話者を判定する判定方式を任意に選択することができる。例えば、話者判定設定画面900において、入力装置305を用いたユーザの操作入力により、チェックボックス902を選択すると、モーションセンサs1を用いた傾き判定(第1の判定方式)を選択することができる。
また、話者判定設定画面900において、チェックボックス903を選択すると、地磁気センサs2を用いた方位判定(第2の判定方式)を選択することができる。なお、話者判定設定画面900において、チェックボックス901を選択すると、デフォルト判定方式を選択することができる。
デフォルト判定方式は、マイクロホンmcにより取得された音声データに対応する話者を、メイン画面400(図4参照)の話者表示欄402に設定された発話者と判定する方式である。デフォルト判定方式が選択された場合、判定部805は、入力された音声データに対応する話者として、話者表示欄402に設定された発話者名の話者を特定する。
話者判定設定画面900において、チェックボックス902が選択されると、図10に示すような話者判定設定画面1000がディスプレイ304に表示される。
図10は、話者判定設定画面の画面例を示す説明図(その2)である。図10において、話者判定設定画面1000は、モーションセンサs1の計測値に関する各範囲に対応する話者の指定を受け付ける操作画面の一例である。ただし、情報処理装置101を、図5に示した使用例のように使用する場合を想定する。
操作パネル1001は、ボタンb11〜b14を含む円形の操作部である。各ボタンb11〜b14は、図5に示した「話者A」、「話者B」、「話者C」および「話者D」の話者間の相対的な位置関係を示している。例えば、情報処理装置101のユーザを「話者B」とした場合、「話者A」は正面に位置する人物に対応する。また、「話者C」は、向かって左側に位置する人物に対応する。また、「話者D」は、向かって右側に位置する人物に対応する。
話者判定設定画面1000において、ボタンb11を選択すると、話者Aを指定することができる。より詳細に説明すると、例えば、ボタンb11を選択すると、不図示の話者名設定画面が表示され、話者Aの発話者名を指定することができる。
話者判定設定画面1000において、ボタンb12を選択すると、話者Bを指定することができる。話者判定設定画面1000において、ボタンb13を選択すると、話者Cを指定することができる。話者判定設定画面1000において、ボタンb14を選択すると、話者Dを指定することができる。
話者判定設定画面1000によれば、ユーザは、自身(例えば、話者B)と他の話者との相対的な位置関係を考慮しながら、モーションセンサs1の計測値に関する各範囲に対応する話者を指定することができる。
話者判定設定画面1000において、完了ボタン1002を選択すると、モーションセンサs1の計測値に関する各範囲に対応する話者の指定を完了することができる。この結果、設定部807により、モーションセンサs1の計測値に関する範囲ごとに、指定された話者を識別する情報(例えば、発話者名)が話者対応テーブル(傾き判定)220aに設定される。
図11は、話者対応テーブル(傾き判定)220aの設定例を示す説明図である。図11において、話者Aとして発話者名「太郎」の話者が指定された結果、話者対応情報600−1の話者フィールドに「太郎」が設定され、回転角(ロール)「−30〜30」と対応付けられている。これにより、モーションセンサs1により計測された回転角(ロール)が、「−30度以上30度以下」の場合は、話者が「太郎」であると特定される。
また、話者Bとして発話者名「花子」の話者が指定された結果、話者対応情報600−2の話者フィールドに「花子」が設定され、回転角(ロール)「−180〜−150,150〜180」と対応付けられている。これにより、モーションセンサs1により計測された回転角(ロール)が、「−180度以上−150度以下」または「150度以上180度以下」の場合は、話者が「花子」であると特定される。
また、話者Cとして発話者名「次郎」の話者が指定された結果、話者対応情報600−3の話者フィールドに「次郎」が設定され、回転角(ロール)「−120〜−60」と対応付けられている。これにより、モーションセンサs1により計測された回転角(ロール)が、「−120度以上−60度以下」の場合は、話者が「次郎」であると特定される。
また、話者Dとして発話者名「三郎」の話者が指定された結果、話者対応情報600−4の話者フィールドに「三郎」が設定され、回転角(ロール)「60〜120」と対応付けられている。これにより、モーションセンサs1により計測された回転角(ロール)が、「60度以上120度以下」の場合は、話者が「三郎」であると特定される。
また、図9に示した話者判定設定画面900において、チェックボックス903が選択されると、図12に示すような話者判定設定画面1200がディスプレイ304に表示される。
図12は、話者判定設定画面の画面例を示す説明図(その3)である。図12において、話者判定設定画面1200は、地磁気センサs2の計測値に関する各範囲に対応する話者の指定を受け付ける操作画面の一例である。ただし、情報処理装置101を、図5に示した使用例のように使用する場合を想定する。
操作パネル1201は、ボタンb21〜b24を含む円形の操作部である。各ボタンb21〜b24は、図5に示した「話者A」、「話者B」、「話者C」および「話者D」の話者間の相対的な位置関係を示している。矢印1202は、真北の方向を示す。なお、操作パネル1201内の表示は、情報処理装置101の方位の状態に連動して変化する。
例えば、情報処理装置101のユーザを「話者B」とした場合、「話者A」は正面に位置する人物に対応する。また、「話者C」は、向かって左側に位置する人物に対応する。また、「話者D」は、向かって右側に位置する人物に対応する。
話者判定設定画面1200において、ボタンb21を選択すると、話者Aを指定することができる。より詳細に説明すると、例えば、ボタンb21を選択すると、不図示の話者名設定画面が表示され、話者Aの発話者名を指定することができる。
話者判定設定画面1200において、ボタンb22を選択すると、話者Bを指定することができる。話者判定設定画面1200において、ボタンb23を選択すると、話者Cを指定することができる。話者判定設定画面1200において、ボタンb24を選択すると、話者Dを指定することができる。
話者判定設定画面1200によれば、ユーザは、自身(例えば、話者B)と他の話者との相対的な位置関係および方角(方位)を考慮しながら、地磁気センサs2の計測値に関する各範囲に対応する話者を指定することができる。
また、話者判定設定画面1200において、分割ボタンb31〜b34を選択すると、区切り線(例えば、1203)を増やして、地磁気センサs2の計測値に関する範囲を細分化することができる。また、話者判定設定画面1200において、区切り線(例えば、1203)を選択して移動させると、各ボタンb21〜b24の大きさを変更して、各話者に対応する地磁気センサs2の計測値に関する範囲を変更することができる。
また、話者判定設定画面1200において、完了ボタン1204を選択すると、地磁気センサs2の計測値に関する各範囲に対応する話者の指定を完了することができる。この結果、設定部807により、地磁気センサs2の計測値に関する範囲ごとに、指定された話者を識別する情報(例えば、発話者名)が話者対応テーブル(方位判定)220bに設定される。
図13は、話者対応テーブル(方位判定)220bの設定例を示す説明図である。図13において、話者Aとして発話者名「マイク」の話者が指定された結果、話者対応情報700−1の話者フィールドに「マイク」が設定され、方位角(アジマス)「1〜90」と対応付けられている。これにより、地磁気センサs2により計測された方位角(アジマス)が、「1度以上90度以下」の場合は、話者が「マイク」であると特定される。
また、話者Bとして発話者名「ボブ」の話者が指定された結果、話者対応情報700−2の話者フィールドに「ボブ」が設定され、方位角(アジマス)「−179〜−90」と対応付けられている。これにより、地磁気センサs2により計測された方位角(アジマス)が、「−179度以上−90度以下」の場合は、話者が「ボブ」であると特定される。
また、話者Cとして発話者名「ナンシー」の話者が指定された結果、話者対応情報700−3の話者フィールドに「ナンシー」が設定され、方位角(アジマス)「−91〜0」と対応付けられている。これにより、地磁気センサs2により計測された方位角(アジマス)が、「−91度以上0度以下」の場合は、話者が「ナンシー」であると特定される。
また、話者Dとして発話者名「ジェフ」の話者が指定された結果、話者対応情報700−4の話者フィールドに「ジェフ」が設定され、方位角(アジマス)「91〜180」と対応付けられている。これにより、地磁気センサs2により計測された方位角(アジマス)が、「91度以上180度以下」の場合は、話者が「ジェフ」であると特定される。
(会話画面の画面例)
つぎに、図14を用いて、情報処理装置101のディスプレイ304に表示される会話画面の画面例について説明する。
図14は、会話画面の画面例を示す説明図である。図14において、会話画面1400は、音声録音された話者の会話を時系列に表示する画面である。ここでは、話者「花子」が話者「太郎」にインタビューした際に録音された発話内容を示すメッセージ1401〜1405が表示されている。
会話画面1400は、同一の議事録IDの発話情報をもとに生成される。例えば、メッセージ1401は、発話者名「花子」と発話時刻「10:43」と発話内容「こんにちは」とを含む。発話者名「花子」は、発話内容「こんにちは」に対応する音声データの入力を受け付けたタイミング(発話時刻)における、モーションセンサs1または地磁気センサs2の計測値に応じて特定された話者を示す。
会話画面1400によれば、ユーザは、話者「花子」が話者「太郎」にインタビューした際に録音された各話者の発話内容を確認することができる。なお、会話画面1400は、例えば、情報処理装置101から議事録サーバ201にアクセスして、議事録IDを指定することで、ディスプレイ304に表示される。また、会話画面1400は、音声録音中にリアルタイムにディスプレイ304に表示されてもよい。
(情報処理装置101の各種情報処理手順)
つぎに、図15〜図17を用いて、情報処理装置101の各種情報処理手順について説明する。まず、図15を用いて、情報処理装置101の音声入力処理手順について説明する。
図15は、情報処理装置101の音声入力処理手順の一例を示すフローチャートである。図15のフローチャートにおいて、まず、情報処理装置101は、録音開始指示を受け付けたか否かを判断する(ステップS1501)。録音開始指示は、例えば、図4に示したメイン画面400において、録音開始ボタン403が選択されたことに応じて入力される。
ここで、情報処理装置101は、録音開始指示を受け付けるのを待つ(ステップS1501:No)。そして、情報処理装置101は、録音開始指示を受け付けた場合(ステップS1501:Yes)、音声録音を開始する(ステップS1502)。この結果、マイクロホンmcにより取得された音声データがバッファリングされる。
つぎに、情報処理装置101は、音声認識サーバ202と接続する(ステップS1503)。そして、情報処理装置101は、バッファリングされたデータ(バッファデータ)を、音声認識サーバ202に順次送信する(ステップS1504)。
つぎに、情報処理装置101は、録音終了指示を受け付けたか否かを判断する(ステップS1505)。録音終了指示は、例えば、メイン画面400において、録音開始ボタン403を選択して音声録音が開始された後、録音開始ボタン403が再度選択されたことに応じて入力される。
ここで、情報処理装置101は、録音終了指示を受け付けていない場合(ステップS1505:No)、ステップS1504に戻る。一方、録音終了指示を受け付けた場合(ステップS1505:Yes)、情報処理装置101は、音声録音を終了して(ステップS1506)、本フローチャートによる一連の処理を終了する。
これにより、マイクロホンmcにより取得された音声データを、音声認識サーバ202に転送して、音声認識処理を依頼することができる。なお、音声録音が終了すると、音声認識サーバ202との接続は切断される。
つぎに、図16を用いて、情報処理装置101のセンシングデータ取得処理手順について説明する。
図16は、情報処理装置101のセンシングデータ取得処理手順の一例を示すフローチャートである。図16のフローチャートにおいて、まず、情報処理装置101は、音声録音が開始されたか否かを判断する(ステップS1601)。ここで、情報処理装置101は、音声録音が開始されるのを待つ(ステップS1601:No)。
そして、音声録音が開始された場合(ステップS1601:Yes)、情報処理装置101は、各センサs1,s2(モーションセンサs1、地磁気センサs2)にアクセスして、各センサs1,s2の計測値を取得する(ステップS1602)。
つぎに、情報処理装置101は、取得した各センサs1,s2の計測値と、各センサs1,s2の計測値の計測時刻と対応付けて表すセンシングデータを、センシングデータテーブル230に記録する(ステップS1603)。そして、情報処理装置101は、音声録音が終了したか否かを判断する(ステップS1604)。
ここで、音声録音が終了していない場合(ステップS1604:No)、情報処理装置101は、ステップS1602に戻る。この際、情報処理装置101は、例えば、一定時間(例えば、10ミリ秒)待機してから、ステップS1602に戻る。一方、音声録音が終了した場合(ステップS1604:Yes)、情報処理装置101は、本フローチャートによる一連の処理を終了する。
これにより、音声録音が開始されてから終了するまでの間、モーションセンサs1および地磁気センサs2の計測値を一定時間ごとに取得することができる。
つぎに、図17を用いて、情報処理装置101の話者識別処理手順について説明する。
図17は、情報処理装置101の話者識別処理手順の一例を示すフローチャートである。図17のフローチャートにおいて、まず、情報処理装置101は、音声認識サーバ202から発話開始シグナルを受信したか否かを判断する(ステップS1701)。
発話開始シグナルは、発話が開始されたことを示す情報であり、例えば、発話開始タイミングを特定する情報を含む。発話開始タイミングは、情報処理装置101において、マイクロホンmcにより最初のバッファデータ(音声データ)の入力を受け付けた時点に相当する。最初のバッファデータは、一つの発話(発話区間)を構成する一連のバッファデータのうちの最初のバッファデータである。
例えば、音声認識サーバ202は、情報処理装置101から最初のバッファデータを受信すると、情報処理装置101に発話開始シグナルを送信する。そして、音声認識サーバ202は、情報処理装置101から受信したバッファデータを順次処理して、音声データの音声認識処理を行う。また、音声認識サーバ202は、一つの発話(発話区間)の音声認識処理が完了すると、認識完了シグナルとともに音声認識結果を情報処理装置101に送信する。認識完了シグナルは、一つの発話(発話区間)の音声認識処理が完了したことを示す。
ここで、情報処理装置101は、音声認識サーバ202から発話開始シグナルを受信するのを待つ(ステップS1701:No)。そして、情報処理装置101は、発話開始シグナルを受信すると(ステップS1701:Yes)、センシングデータテーブル230を参照して、発話開始タイミングにおけるセンシングデータを取得する(ステップS1702)。発話開始タイミングは、発話開始シグナルから特定される。
つぎに、情報処理装置101は、話者対応テーブル220(話者対応テーブル(傾き判定)220a、または、話者対応テーブル(方位判定)220b)を参照して、取得したセンシングデータに基づいて、発話者名を特定する(ステップS1703)。発話者名の特定は、例えば、モーションセンサs1を用いた第1の判定方式と、地磁気センサs2を用いた第2の判定方式とから選択された判定方式により行われる。
そして、情報処理装置101は、特定した発話者名を発話者名キューに格納する(ステップS1704)。発話者名キューは、FIFO(First In First Out)構造のキューである。つぎに、情報処理装置101は、音声認識サーバ202から認識完了シグナルとともに音声認識結果を受信したか否かを判断する(ステップS1705)。ここで、情報処理装置101は、音声認識サーバ202から認識完了シグナルとともに音声認識結果を受信するのを待つ(ステップS1705:No)。
そして、情報処理装置101は、認識完了シグナルとともに音声認識結果を受信した場合(ステップS1705:Yes)、発話者名キューから最も古い発話者名を取得する(ステップS1706)。つぎに、情報処理装置101は、取得した発話者名と、受信した音声認識結果とを含む発話情報を、議事録サーバ201に送信する(ステップS1707)。
そして、情報処理装置101は、話者識別処理を終了するか否かを判断する(ステップS1708)。ここで、話者識別処理を終了しない場合(ステップS1708:No)、情報処理装置101は、ステップS1701に戻る。一方、話者識別処理を終了する場合(ステップS1708:Yes)、情報処理装置101は、本フローチャートによる一連の処理を終了する。
これにより、マイクロホンmcにより取得された音声データが入力されたタイミングにおける、各センサs1,s2の計測値に応じて、音声データに対応する話者を識別し、議事録サーバ201に発話情報(発話者名、音声認識結果)を登録することができる。
なお、ステップS1707において、情報処理装置101は、取得した発話者名と、受信した音声認識結果とを対応付けて、メイン画面(例えば、図4参照)や会話画面(例えば、図14参照)に表示することにしてもよい。
以上説明したように、実施の形態にかかる情報処理装置101によれば、自装置に設けられたマイクロホンmcにより取得された音声データについて、音声データの入力を受け付けたタイミングにおける、自装置のモーションセンサs1または地磁気センサs2の計測値を特定することができる。そして、情報処理装置101によれば、特定したモーションセンサs1または地磁気センサs2の計測値に基づいて、音声データに対応する話者の切り替わりを判定することができる。
これにより、情報処理装置101に内蔵されたモーションセンサs1または地磁気センサs2を利用して、マイクロホンmcにより取得される音声データに対応する話者の切り替わりを判定することができる。例えば、ユーザが、情報処理装置101を、どのような姿勢にして使用したか、あるいは、どの方位に向けて使用したかによって、話者の切り替わりを判定することができる。このため、話者が切り替わったタイミングや箇所を特定して、音声データを話者単位に区別することが可能となる。
また、情報処理装置101によれば、話者を識別する情報と対応付けて、モーションセンサs1または地磁気センサs2の計測値に関する範囲を記憶する記憶部810(例えば、話者対応テーブル220)を参照して、特定したモーションセンサs1または地磁気センサs2の計測値を含む範囲に対応する話者を特定することができる。
これにより、情報処理装置101に内蔵されたモーションセンサs1または地磁気センサs2を利用して、マイクロホンmcにより取得される音声データに対応する話者を識別することができる。例えば、ユーザが、情報処理装置101を、どのような姿勢にして使用したか、あるいは、どの方位に向けて使用したかによって、話者を識別することが可能となる。
また、情報処理装置101によれば、特定した話者と対応付けて、音声データを音声認識処理して得られる認識結果を出力することができる。
これにより、話者と対応付けて、音声データを音声認識処理して得られる発話内容(テキストデータ)を表示したり、議事録DB240等に記録したりすることができる。
また、情報処理装置101によれば、単一指向性のマイクロホンmcにより音声データの入力を受け付けることができる。
これにより、ユーザが情報処理装置101に設けられたマイクロホンmcを話者に向けて使用する際の録音品質を向上させることができる。
また、情報処理装置101によれば、モーションセンサs1または地磁気センサs2の計測値に関する範囲に対応する話者の指定を受け付け、範囲と対応付けて、指定された話者を識別する情報を記憶部810に記憶することができる。
これにより、モーションセンサs1または地磁気センサs2の計測値に関する範囲に対応する話者を任意に設定することができる。例えば、インタビューや会議に参加する者が決まった場合に、各参加者の相対的な位置関係を考慮しながら、センサs1,s2の計測値に関する各範囲に対応付けて、各参加者の名称(発話者名)を設定することができる。
また、情報処理装置101によれば、モーションセンサs1を用いた第1の判定方式と、地磁気センサs2を用いた第2の判定方式とのいずれかの判定方式の選択を受け付けることができる。そして、情報処理装置101によれば、選択された判定方式に応じて、記憶部810を参照して、特定したモーションセンサs1または地磁気センサs2の計測値を含む範囲に対応する話者を特定することができる。
これにより、利用シーンに応じて、ユーザが判定方式を任意に選択することができる。例えば、予め席順が決まっておらず、事前設定にあまり時間をかけられないときは、情報処理装置101をどのような姿勢にして使用したかによって話者を識別可能な第1の判定方式を選択する。また、会議室等の席順が予め決まっており、事前設定に十分に時間をかけられるときは、情報処理装置101をどの方位に向けて使用したかによって話者を識別可能な第2の判定方式を選択する。
これらのことから、情報処理装置101によれば、スマートフォンや携帯電話機などの汎用のコンピュータを利用した簡易な構成で、話者を識別することが可能となる。また、高性能なGPUなどのハードウェアを搭載することなく、リアルタイムの話者識別を実現することができる。また、複数の指向性マイクを搭載した特殊マイクのようなデバイスが必要ではないため、携帯性に優れており、突然の使用を想定して常に持ち歩くといった使い方をすることができる。
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、CD(Compact Disc)−ROM、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータに実行させることを特徴とする情報処理プログラム。
(付記2)前記判定する処理は、
話者を識別する情報と対応付けて、前記モーションセンサまたは前記地磁気センサの計測値に関する範囲を記憶する記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする付記1に記載の情報処理プログラム。
(付記3)特定した前記話者と対応付けて、前記音声データを音声認識処理して得られる認識結果を出力する、処理を前記コンピュータに実行させることを特徴とする付記2に記載の情報処理プログラム。
(付記4)前記マイクロホンは、単一指向性のマイクロホンである、ことを特徴とする付記1〜3のいずれか一つに記載の情報処理プログラム。
(付記5)前記モーションセンサまたは前記地磁気センサの計測値に関する範囲に対応する話者の指定を受け付け、
前記範囲と対応付けて、指定された前記話者を識別する情報を前記記憶部に記憶する、処理を前記コンピュータに実行させることを特徴とする付記2に記載の情報処理プログラム。
(付記6)前記モーションセンサを用いた判定方式と、前記地磁気センサを用いた判定方式とのいずれかの判定方式の選択を受け付ける、処理を前記コンピュータに実行させ、
前記判定する処理は、
選択された前記判定方式に応じて、前記記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
ことを特徴とする付記2に記載の情報処理プログラム。
(付記7)前記モーションセンサの計測値は、前記情報処理装置に内蔵された加速度センサにより計測される回転角である、ことを特徴とする付記1〜6のいずれか一つに記載の情報処理プログラム。
(付記8)前記地磁気センサの計測値は、前記情報処理装置に内蔵された地磁気センサにより計測される方位角である、ことを特徴とする付記1〜7のいずれか一つに記載の情報処理プログラム。
(付記9)情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
処理をコンピュータが実行することを特徴とする情報処理方法。
(付記10)情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定する特定部と、
前記特定部によって特定された前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する判定部と、
を有することを特徴とする情報処理装置。
101 情報処理装置
200 情報処理システム
201 議事録サーバ
202 音声認識サーバ
210 ネットワーク
220 話者対応テーブル
230 センシングデータテーブル
240 議事録DB
300 バス
301 CPU
302 メモリ
303 通信I/F
304 ディスプレイ
305 入力装置
400 メイン画面
801 受付部
802 音声認識部
803 取得部
804 特定部
805 判定部
806 出力部
807 設定部
810 記憶部
900,1000,1200 話者判定設定画面
1400 会話画面

Claims (8)

  1. 情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
    特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
    処理をコンピュータに実行させることを特徴とする情報処理プログラム。
  2. 前記判定する処理は、
    話者を識別する情報と対応付けて、前記モーションセンサまたは前記地磁気センサの計測値に関する範囲を記憶する記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
    ことを特徴とする請求項1に記載の情報処理プログラム。
  3. 特定した前記話者と対応付けて、前記音声データを音声認識処理して得られる認識結果を出力する、処理を前記コンピュータに実行させることを特徴とする請求項2に記載の情報処理プログラム。
  4. 前記マイクロホンは、単一指向性のマイクロホンである、ことを特徴とする請求項1〜3のいずれか一つに記載の情報処理プログラム。
  5. 前記モーションセンサまたは前記地磁気センサの計測値に関する範囲に対応する話者の指定を受け付け、
    前記範囲と対応付けて、指定された前記話者を識別する情報を前記記憶部に記憶する、処理を前記コンピュータに実行させることを特徴とする請求項2に記載の情報処理プログラム。
  6. 前記モーションセンサを用いた判定方式と、前記地磁気センサを用いた判定方式とのいずれかの判定方式の選択を受け付ける、処理を前記コンピュータに実行させ、
    前記判定する処理は、
    選択された前記判定方式に応じて、前記記憶部を参照して、特定した前記モーションセンサまたは前記地磁気センサの計測値を含む範囲に対応する話者を特定する、
    ことを特徴とする請求項2に記載の情報処理プログラム。
  7. 情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定し、
    特定した前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する、
    処理をコンピュータが実行することを特徴とする情報処理方法。
  8. 情報処理装置に設けられたマイクロホンにより取得された音声データについて、前記音声データの入力を受け付けたタイミングにおける、前記情報処理装置のモーションセンサまたは地磁気センサの計測値を特定する特定部と、
    前記特定部によって特定された前記モーションセンサまたは前記地磁気センサの計測値に基づいて、前記音声データに対応する話者の切り替わりを判定する判定部と、
    を有することを特徴とする情報処理装置。
JP2020014869A 2020-01-31 2020-01-31 情報処理プログラム、情報処理方法および情報処理装置 Pending JP2021121834A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020014869A JP2021121834A (ja) 2020-01-31 2020-01-31 情報処理プログラム、情報処理方法および情報処理装置
US17/103,823 US20210241763A1 (en) 2020-01-31 2020-11-24 Storage medium, information processing method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020014869A JP2021121834A (ja) 2020-01-31 2020-01-31 情報処理プログラム、情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2021121834A true JP2021121834A (ja) 2021-08-26

Family

ID=77062290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020014869A Pending JP2021121834A (ja) 2020-01-31 2020-01-31 情報処理プログラム、情報処理方法および情報処理装置

Country Status (2)

Country Link
US (1) US20210241763A1 (ja)
JP (1) JP2021121834A (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US10504516B2 (en) * 2017-09-13 2019-12-10 Federal Signal Corporation Voice control for emergency vehicle
US10580414B2 (en) * 2018-05-07 2020-03-03 Microsoft Technology Licensing, Llc Speaker recognition/location using neural network
US11158335B1 (en) * 2019-03-28 2021-10-26 Amazon Technologies, Inc. Audio beam selection
CN110517702B (zh) * 2019-09-06 2022-10-04 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置

Also Published As

Publication number Publication date
US20210241763A1 (en) 2021-08-05

Similar Documents

Publication Publication Date Title
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
US10409547B2 (en) Apparatus for recording audio information and method for controlling same
US20140168176A1 (en) Multi-purpose stylus for a computing device
JPWO2016103988A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20130314543A1 (en) Method and system for controlling an imaging system
KR20140118060A (ko) 휴대 단말 및 보청기와 휴대 단말에서 음원의 위치를 제공하는 방법
JP2012040655A (ja) ロボット制御方法、プログラム、及びロボット
CN105556955A (zh) 视频通话装置和视频通话处理方法
US10430896B2 (en) Information processing apparatus and method that receives identification and interaction information via near-field communication link
US20130322651A1 (en) Systems, methods, and apparatus for generating representations of images and audio
US20110082698A1 (en) Devices, Systems and Methods for Improving and Adjusting Communication
CN110798327B (zh) 消息处理方法、设备及存储介质
JPWO2017150103A1 (ja) 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
JPWO2019187521A1 (ja) 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ
US9516417B2 (en) Boundary binaural microphone array
CN108763475B (zh) 一种录制方法、录制装置及终端设备
JP2021121834A (ja) 情報処理プログラム、情報処理方法および情報処理装置
US11227423B2 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
JP2011135272A (ja) 端末装置、処理方法および処理プログラム
JP2016010039A (ja) 遠隔会議システム、その映像処理方法、映像制御装置、会議端末、及びプログラム
CN113643708B (zh) 参会人声纹识别方法、装置、电子设备及存储介质
JP6701887B2 (ja) 情報処理システム、情報処理方法およびプログラム
JP2021197658A (ja) 収音装置、収音システム及び収音方法
JP6933163B2 (ja) 通信装置、通信システム、通信方法およびプログラム
JP2012165170A (ja) 会議装置、会議方法および会議プログラム