JP2006235712A

JP2006235712A - 会話収録装置

Info

Publication number: JP2006235712A
Application number: JP2005045577A
Authority: JP
Inventors: Hiroshi Kyogoku; 浩京極
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-02-22
Filing date: 2005-02-22
Publication date: 2006-09-07

Abstract

【課題】初対面の人であっても、何らの事前準備無しに、誰の発言か判らなくなることの無い、議事録を作成することのできる、ポータブルな会話収録装置。
【解決手段】周囲の撮像手段を擁し顔領域を切り出す。発言があった場合、唇領域を切り出し、その形状変化から発言者を特定し、発言者のサムネイル顔画像を生成し、音声認識により文字符号化列に変換された、一区切りされた発言内容のヘッダーとして付加する。
【選択図】図１

Description

本発明は、会話に参加した各発言者の発言内容と静止顔画像を撮像して、夫々文字符号とサムネイル顔画像に変換して、電子化会話録情報として記憶する装置に関するものです。

今日、高性能化したパーソナルコンピュータなどで、キーボードから指を使って文字符号を入力する方式の代わりに音声を使って文字符号を入力する音声認識方式がアプリケーションプログラムとして実用化されている。マイクロフォン等の音声入力手段より入力された音声情報を音声認識プログラム手段により文字符号に変換し、これを表示部に出力するものである。しかしながら、例えば会議において速記の代替として議事録作成などに使用するような場合、発言者の識別機能を有していないと発言者の区別が出来ないので、後日発言者との対応がつかないという欠点があった。その対策として、発言者を簡単に特定するための従来技術として、例えば、特開平５−３５４４０号公報の記載によれば、発言内容を記憶時に、予め登録された発言者の音質と比較して発言者を特定し、特定した発言者の識別名を音声認識によって変換された文字符号に付加して記憶する文書自動作成装置が提案されている。この方式によれば、後日、発言者を簡単に特定できるので利点がある。
特開平５−３５４４０号公報

しかしながら、上述した方式においては、会話に参加する全員の音質と比較する個々の音質情報を予め収録しておかなくてはならない。同時に収録した個々の音質情報に対応付けた識別名を予め登録しておく必要があり、事前準備を必要とする。本発明は、上記問題点に鑑みてなされたものであり、会話の収録に当たって面倒な事前準備を必要とせず、初対面の相手との会話であっても、後日、誰の発言であったか解らなくなることの無い、かつ、携帯に適した小型で発言者を容易に特定できる会話録や議事録などを簡単に作成可能とする会話収録装置を提供することにある。

上記目的を達成するため、本発明に関る会話収録装置は、周囲をサンプリング撮像可能な画像入力手段と、撮像された周囲の静止画像から顔の輪郭領域や唇の輪郭領域等を切り出す抽出手段と、抽出された顔の輪郭画像から小さな顔画像を生成するサムネイル顔画像生成手段と、抽出された唇領域の形状の経時変化から発言者を特定する発言者識別手段と、前記発言者識別手段により識別された発言者のサムネイル顔画像を音声認識によって変換された一区切りされた文字符号に付加する手段と、前記音声認識された文字符号及びサムネイル顔画像を記憶する手段とを備えたものである。

（作用）
この方式によれば、特定の個人によって発せられた一塊の発言内容は音声入力手段によって収録され、音声認識手段によって文字符号列に変換され、一塊の文字符号列に編集され、そのヘッダーとして、画像入力手段によって撮像された周囲の静止画像から、発言者当人の顔画像を切り出して生成された小さな顔画像を付加するため、後に発言者が解らないということが無くなる。特に、初対面の人物との会話であっても、何らの事前作業を必要としない会話収録装置が得られる。

以上説明したとおり、本発明に係る会話収録装置によれば、音声入力による音声情報から音声認識によって変換された同一人物の一塊の文字符号列毎に、ヘッダーとして発言者のサムネイル顔画像を付加して記憶するため、たとえ初対面の人物ばかりであっても、後に発言者が不明になるということもなくなる。なおかつ、発言時のサムネイル顔画像であるので、発言時の表情なども残り、雰囲気などを後々思い出すことができる。また、サムネイル顔画像に襟元の一部を残すと、発言時の服装も確認でき、その場の雰囲気を思い出す一助となる。勿論時折、周囲の風景画像や会議中であれば黒板等を撮像しておいても良いことは言うまでも無い。このように、発言毎にサムネイル顔画像をヘッダーとして使用するので、外出時などモバイルで使用しても何らの事前処理を必要としないので、初対面の人も混じった会話における対話録も後々誰の発言か間違うこと無く残すことができる。このことは初対面の人を含む多人数の議事録作成用などに適したものになるなどの利点が得られる。

以下、本発明の実施例について図面を用いて説明する。

図１は、本発明に係る会話収録装置の一実施例を示す構成ブロック図である。

図において、この会話収録装置は、画像入力部１と、顔画像抽出部２と、サムネイル画像作成部３と、唇抽出/変化判定部４と、音声入力部５と、音声認識部６と、サムネイル画像/文字符号記憶部７とで構成されている。

更に詳述すると、１の画像入力部は周囲の画像情報を入力する部分としてＣＣＤカメラ等の電子撮像手段で構成されている。この画像入力部１は広角レンズにより極力広い範囲の撮像が可能であることが、カメラ部を動かす必要も無く、小型で消費電力も少なく望ましい。そして毎秒複数回撮像された静止画から２の顔画像抽出部で顔の輪郭領域を切り出して、会話に参加しているメンバの顔画像を獲得する。発言があった場合、音声入力部５のマイクロフォンから音声情報が入力される。音声入力部５であるマイクロフォンは複数個配しても良く、同一音声の到達時間差により概略の音源を探っても良いし、最も指向性の良いマイクロフォンに切り換えても良い。

発言が認識されると前記静止画中から抽出された顔画像の中から、更に唇領域が抽出され、複数枚の経時画像を比較することにより唇の変化している顔画像を発言者と判定する。このとき音声信号の音の長さと唇の動いている長さを比較すると更に確度が上がることは言うまでも無い。４の発言者識別部で発言者が識別されると３のサムネイル画像生成部で縦横数十画素程度の小さな顔画像を既に切り出されている顔画像から生成する。このとき襟元部分を削除せず、付加すると服装の一部やネクタイやネックレスなども情報として残り、後々便利となることは言うまでも無い。

そして６の音声認識部は、音声入力部５から入力された音声情報を文字符号列に変換する。そして、７の会話録作成部で同一人の発言毎に区切った会話録として編集される。会話録作成部７で編集された一塊の文字符号列と発言者識別部４で識別されサムネイル画像生成部３で作られた発言者のサムネイル顔画像を付加して記憶部８に記憶される。勿論、図示はしていないがプリンタで記録しても良い。図２は記憶部８に記憶された会話録の一部を記録した一例を示すものです。

図中では、この会話録の開始された時刻が先ず記録されている。

発言内容１と発言内容５は先頭にヘッダーとして付加されたサムネイル顔画像により同一人物の発言と解る。同様に、発言内容２と発言内容４と発言内容７は異なる人物の発言と理解できる。此処で、発言内容８はヘッダーにサムネイル顔画像は無くアルファベットの「Ａ」で代行しているが、是は自分自身である。画像入力部を別置きにしてあれば自分の顔画像も撮像可能であるが、モバイル使用時、画像入力部はネクタイピンやブローチ等のように身に装着するので、自分自身は撮像できないからである。勿論、自分の名前をヘッダーとして使用しても良いし、自分のサムネイル顔画像を予め登録しておいて使用することも出来る。

既知の顔情報を予め所有していれば名前を対応付けておいてＩＣカード等で会話収録装置に情報を与えても良く、複雑になるが顔認識手段を付加して名前をサムネイル顔画像の代わりにヘッダーとしても良いことは言うまでも無い。

図３は、本発明に係る会話収録装置の第２の実施例を示す構成ブロック図である。

図１および図３において図１と同一符号を付したものは図１と同一のものを示している。

図１との大きな違いは画像や音声の収録部と演算処理/記憶部を分離して別体として、両者をBlue tooth等の無線通信手段で交信可能にしたことである。会話収録装置はブロック図では省略してあるがモバイルで使用するには電池等の電源も必要であり、ハンドフリーで何時でも何処でも使用可能であることが望ましく、カメラやマイク等はブローチやネクタイピンのように身に装着したいので極力、小型であることが望ましい。

従って、必要最小限の機能だけを残して、残りは全て無線で通信可能な別体に分けることにより必要最小限に機能だけを身に装着使用可能とするものです。

即ち、図３では、音声入力手段５から入力された音声情報を無線送信する為にパケット信号化するコーデック部９とBlue tooth等の無線送信部１０を新たに配して音声/画像収録部１３を形成している。一方、切り離された音声認識部６と会話録作成部７とサムネイル顔画像/文字符号記憶部８側には、無線送信された音声/画像情報を受信する無線受信部１１と、パケット化された音声情報を復元するデコーダ部１２を新に配して情報処理/記憶部１４を形成している。

このように会話収録装置を２体に分離することにより、身体に装着したい会話収録装置をより小型化することが可能となる。

また、一部を情報処理/記憶部１４として分離し別置き出来ることにより、大きな電力を供給可能となり精度を必要とする音声認識処理により大きなCPUパワーを与えることも出来、記憶部８も大容量化が可能となる。

無線通信手段に省エネの微弱電波を使用すれば情報処理/記憶部１３は腰のベルトや鞄の中など近距離に置かざるを得ないが、電力事情さえ許せば802.11x等の無線LANを使用してWeb経由で自宅等の遠隔地に配することも可能となる。

２体に切り離す区分としては通信量の最小化を狙い、データ量の多い画像情報を最小限に減らすため、会話の最小フレーズ毎のサムネイル顔画像までの処理は音声/画像収録部１３側で行い、画像の部分的抽出や比較処理に止めることで最小限のパワー消費に抑えることが出来る。なお、上記実施例では何処でも何時でも使用可能な日常的な会話収録を目的に説明したが、必ずしも会話の収録に限るものではなく、速記の変わりに記録して議事録を作成しても良く、類似した文書を作成する会合などにも適用できる。

本発明に係る会話収録装置の第１の実施例を示す構成ブロック図である。図１に示した会話収録装置で記憶された会話録の一部を記録した結果の一例を示す図である。本発明に係る会話収録装置の第２の実施例を示す構成ブロック図である。

符号の説明

１画像入力部
２顔画像抽出部
３サムネイル画像生成部３
４唇抽出/変化判定部
５音声入力部
６音声認識部
７会話録作成部
８サムネイル画像/文字符号記憶部
９コーデック部
１０無線送信部
１１無線受信部
１２デコーダ部
１３音声/画像収録部
１４情報処理/記憶部

Claims

発言者の音声情報を音声信号に変換して入力する音声入力部と、前記入力された音声信号を文字符号列に変換する音声認識部と、前記変換された文字符号列を所定の単位毎に区切った会話録として作成する会話録作成部と、発言者を撮像する画像入力部と、前記撮像された人物の唇部の形状変化から発言者を特定する発言者識別部と、前記識別された発言者のサムネイル顔画像を生成するサムネイル顔画像生成部と、前記生成されたサムネイル顔画像と前記作成された会話録とを合わせて記憶するサムネイル顔画像/会話録記憶部と、を備えたことを特徴とする会話収録装置。
一時的に記憶されたヘッダーとしてサムネイル顔画像を付加され、音声認識により文字符号化された一連の会話内容を記録する記録手段を備えたことを特徴とする特許請求の範囲第１項記載の会話収録装置。
発言者の音声情報を音声信号に変換して入力する音声入力手段と、前記受信された音声信号をデジタル信号化するコーデック部と、発言者を撮像する画像入力部と、前記撮像された人物の唇部の形状変化から発言者を特定する発言者識別部と、前記識別された発言者のサムネイル顔画像を生成するサムネイル顔画像生成部と、前記生成されたサムネイル顔画像と前記コーデックされた会話録とを関連付けて無線送信する無線送信手段と、から構成される画像/音声収録部と、無線受信手段によって受信された無線情報の内のコーデックされたデジタル信号から音声信号に復元するデコーダ部と、前記デコードされた音声信号を文字符号に変換する音声認識部と、前記変換された文字符号列を所定の単位毎に区切った会話録として作成する会話録作成部と、前記作成された会話録と前記サムネイル顔画画像を合わせて記憶するサムネイル顔画像/会話録記憶部と、から構成される情報処理/記憶部と、から構成されたことを特徴とする会話収録装置。