JP2006235712A - 会話収録装置 - Google Patents
会話収録装置 Download PDFInfo
- Publication number
- JP2006235712A JP2006235712A JP2005045577A JP2005045577A JP2006235712A JP 2006235712 A JP2006235712 A JP 2006235712A JP 2005045577 A JP2005045577 A JP 2005045577A JP 2005045577 A JP2005045577 A JP 2005045577A JP 2006235712 A JP2006235712 A JP 2006235712A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speaker
- face image
- conversation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Studio Devices (AREA)
Abstract
【課題】 初対面の人であっても、何らの事前準備無しに、誰の発言か判らなくなることの無い、議事録を作成することのできる、ポータブルな会話収録装置。
【解決手段】 周囲の撮像手段を擁し顔領域を切り出す。発言があった場合、唇領域を切り出し、その形状変化から発言者を特定し、発言者のサムネイル顔画像を生成し、音声認識により文字符号化列に変換された、一区切りされた発言内容のヘッダーとして付加する。
【選択図】 図1
【解決手段】 周囲の撮像手段を擁し顔領域を切り出す。発言があった場合、唇領域を切り出し、その形状変化から発言者を特定し、発言者のサムネイル顔画像を生成し、音声認識により文字符号化列に変換された、一区切りされた発言内容のヘッダーとして付加する。
【選択図】 図1
Description
本発明は、会話に参加した各発言者の発言内容と静止顔画像を撮像して、夫々文字符号とサムネイル顔画像に変換して、電子化会話録情報として記憶する装置に関するものです。
今日、高性能化したパーソナルコンピュータなどで、キーボードから指を使って文字符号を入力する方式の代わりに音声を使って文字符号を入力する音声認識方式がアプリケーションプログラムとして実用化されている。マイクロフォン等の音声入力手段より入力された音声情報を音声認識プログラム手段により文字符号に変換し、これを表示部に出力するものである。しかしながら、例えば会議において速記の代替として議事録作成などに使用するような場合、発言者の識別機能を有していないと発言者の区別が出来ないので、後日発言者との対応がつかないという欠点があった。その対策として、発言者を簡単に特定するための従来技術として、例えば、特開平5−35440号公報の記載によれば、発言内容を記憶時に、予め登録された発言者の音質と比較して発言者を特定し、特定した発言者の識別名を音声認識によって変換された文字符号に付加して記憶する文書自動作成装置が提案されている。この方式によれば、後日、発言者を簡単に特定できるので利点がある。
特開平5−35440号公報
しかしながら、上述した方式においては、会話に参加する全員の音質と比較する個々の音質情報を予め収録しておかなくてはならない。同時に収録した個々の音質情報に対応付けた識別名を予め登録しておく必要があり、事前準備を必要とする。本発明は、上記問題点に鑑みてなされたものであり、会話の収録に当たって面倒な事前準備を必要とせず、初対面の相手との会話であっても、後日、誰の発言であったか解らなくなることの無い、かつ、携帯に適した小型で発言者を容易に特定できる会話録や議事録などを簡単に作成可能とする会話収録装置を提供することにある。
上記目的を達成するため、本発明に関る会話収録装置は、周囲をサンプリング撮像可能な画像入力手段と、撮像された周囲の静止画像から顔の輪郭領域や唇の輪郭領域等を切り出す抽出手段と、抽出された顔の輪郭画像から小さな顔画像を生成するサムネイル顔画像生成手段と、抽出された唇領域の形状の経時変化から発言者を特定する発言者識別手段と、前記発言者識別手段により識別された発言者のサムネイル顔画像を音声認識によって変換された一区切りされた文字符号に付加する手段と、前記音声認識された文字符号及びサムネイル顔画像を記憶する手段とを備えたものである。
(作用)
この方式によれば、特定の個人によって発せられた一塊の発言内容は音声入力手段によって収録され、音声認識手段によって文字符号列に変換され、一塊の文字符号列に編集され、そのヘッダーとして、画像入力手段によって撮像された周囲の静止画像から、発言者当人の顔画像を切り出して生成された小さな顔画像を付加するため、後に発言者が解らないということが無くなる。特に、初対面の人物との会話であっても、何らの事前作業を必要としない会話収録装置が得られる。
この方式によれば、特定の個人によって発せられた一塊の発言内容は音声入力手段によって収録され、音声認識手段によって文字符号列に変換され、一塊の文字符号列に編集され、そのヘッダーとして、画像入力手段によって撮像された周囲の静止画像から、発言者当人の顔画像を切り出して生成された小さな顔画像を付加するため、後に発言者が解らないということが無くなる。特に、初対面の人物との会話であっても、何らの事前作業を必要としない会話収録装置が得られる。
以上説明したとおり、本発明に係る会話収録装置によれば、音声入力による音声情報から音声認識によって変換された同一人物の一塊の文字符号列毎に、ヘッダーとして発言者のサムネイル顔画像を付加して記憶するため、たとえ初対面の人物ばかりであっても、後に発言者が不明になるということもなくなる。なおかつ、発言時のサムネイル顔画像であるので、発言時の表情なども残り、雰囲気などを後々思い出すことができる。また、サムネイル顔画像に襟元の一部を残すと、発言時の服装も確認でき、その場の雰囲気を思い出す一助となる。勿論時折、周囲の風景画像や会議中であれば黒板等を撮像しておいても良いことは言うまでも無い。このように、発言毎にサムネイル顔画像をヘッダーとして使用するので、外出時などモバイルで使用しても何らの事前処理を必要としないので、初対面の人も混じった会話における対話録も後々誰の発言か間違うこと無く残すことができる。このことは初対面の人を含む多人数の議事録作成用などに適したものになるなどの利点が得られる。
以下、本発明の実施例について図面を用いて説明する。
図1は、本発明に係る会話収録装置の一実施例を示す構成ブロック図である。
図において、この会話収録装置は、画像入力部1と、顔画像抽出部2と、サムネイル画像作成部3と、唇抽出/変化判定部4と、音声入力部5と、音声認識部6と、サムネイル画像/文字符号記憶部7とで構成されている。
更に詳述すると、1の画像入力部は周囲の画像情報を入力する部分としてCCDカメラ等の電子撮像手段で構成されている。この画像入力部1は広角レンズにより極力広い範囲の撮像が可能であることが、カメラ部を動かす必要も無く、小型で消費電力も少なく望ましい。そして毎秒複数回撮像された静止画から2の顔画像抽出部で顔の輪郭領域を切り出して、会話に参加しているメンバの顔画像を獲得する。発言があった場合、音声入力部5のマイクロフォンから音声情報が入力される。音声入力部5であるマイクロフォンは複数個配しても良く、同一音声の到達時間差により概略の音源を探っても良いし、最も指向性の良いマイクロフォンに切り換えても良い。
発言が認識されると前記静止画中から抽出された顔画像の中から、更に唇領域が抽出され、複数枚の経時画像を比較することにより唇の変化している顔画像を発言者と判定する。このとき音声信号の音の長さと唇の動いている長さを比較すると更に確度が上がることは言うまでも無い。4の発言者識別部で発言者が識別されると3のサムネイル画像生成部で縦横数十画素程度の小さな顔画像を既に切り出されている顔画像から生成する。このとき襟元部分を削除せず、付加すると服装の一部やネクタイやネックレスなども情報として残り、後々便利となることは言うまでも無い。
そして6の音声認識部は、音声入力部5から入力された音声情報を文字符号列に変換する。そして、7の会話録作成部で同一人の発言毎に区切った会話録として編集される。会話録作成部7で編集された一塊の文字符号列と発言者識別部4で識別されサムネイル画像生成部3で作られた発言者のサムネイル顔画像を付加して記憶部8に記憶される。勿論、図示はしていないがプリンタで記録しても良い。図2は記憶部8に記憶された会話録の一部を記録した一例を示すものです。
図中では、この会話録の開始された時刻が先ず記録されている。
発言内容1と発言内容5は先頭にヘッダーとして付加されたサムネイル顔画像により同一人物の発言と解る。同様に、発言内容2と発言内容4と発言内容7は異なる人物の発言と理解できる。此処で、発言内容8はヘッダーにサムネイル顔画像は無くアルファベットの「A」で代行しているが、是は自分自身である。画像入力部を別置きにしてあれば自分の顔画像も撮像可能であるが、モバイル使用時、画像入力部はネクタイピンやブローチ等のように身に装着するので、自分自身は撮像できないからである。勿論、自分の名前をヘッダーとして使用しても良いし、自分のサムネイル顔画像を予め登録しておいて使用することも出来る。
既知の顔情報を予め所有していれば名前を対応付けておいてICカード等で会話収録装置に情報を与えても良く、複雑になるが顔認識手段を付加して名前をサムネイル顔画像の代わりにヘッダーとしても良いことは言うまでも無い。
図3は、本発明に係る会話収録装置の第2の実施例を示す構成ブロック図である。
図1および図3において図1と同一符号を付したものは図1と同一のものを示している。
図1との大きな違いは画像や音声の収録部と演算処理/記憶部を分離して別体として、両者をBlue tooth等の無線通信手段で交信可能にしたことである。会話収録装置はブロック図では省略してあるがモバイルで使用するには電池等の電源も必要であり、ハンドフリーで何時でも何処でも使用可能であることが望ましく、カメラやマイク等はブローチやネクタイピンのように身に装着したいので極力、小型であることが望ましい。
従って、必要最小限の機能だけを残して、残りは全て無線で通信可能な別体に分けることにより必要最小限に機能だけを身に装着使用可能とするものです。
即ち、図3では、音声入力手段5から入力された音声情報を無線送信する為にパケット信号化するコーデック部9とBlue tooth等の無線送信部10を新たに配して音声/画像収録部13を形成している。一方、切り離された音声認識部6と会話録作成部7とサムネイル顔画像/文字符号記憶部8側には、無線送信された音声/画像情報を受信する無線受信部11と、パケット化された音声情報を復元するデコーダ部12を新に配して情報処理/記憶部14を形成している。
このように会話収録装置を2体に分離することにより、身体に装着したい会話収録装置をより小型化することが可能となる。
また、一部を情報処理/記憶部14として分離し別置き出来ることにより、大きな電力を供給可能となり精度を必要とする音声認識処理により大きなCPUパワーを与えることも出来、記憶部8も大容量化が可能となる。
無線通信手段に省エネの微弱電波を使用すれば情報処理/記憶部13は腰のベルトや鞄の中など近距離に置かざるを得ないが、電力事情さえ許せば802.11x等の無線LANを使用してWeb経由で自宅等の遠隔地に配することも可能となる。
2体に切り離す区分としては通信量の最小化を狙い、データ量の多い画像情報を最小限に減らすため、会話の最小フレーズ毎のサムネイル顔画像までの処理は音声/画像収録部13側で行い、画像の部分的抽出や比較処理に止めることで最小限のパワー消費に抑えることが出来る。なお、上記実施例では何処でも何時でも使用可能な日常的な会話収録を目的に説明したが、必ずしも会話の収録に限るものではなく、速記の変わりに記録して議事録を作成しても良く、類似した文書を作成する会合などにも適用できる。
1 画像入力部
2 顔画像抽出部
3 サムネイル画像生成部3
4 唇抽出/変化判定部
5 音声入力部
6 音声認識部
7 会話録作成部
8 サムネイル画像/文字符号記憶部
9 コーデック部
10 無線送信部
11 無線受信部
12 デコーダ部
13 音声/画像収録部
14 情報処理/記憶部
2 顔画像抽出部
3 サムネイル画像生成部3
4 唇抽出/変化判定部
5 音声入力部
6 音声認識部
7 会話録作成部
8 サムネイル画像/文字符号記憶部
9 コーデック部
10 無線送信部
11 無線受信部
12 デコーダ部
13 音声/画像収録部
14 情報処理/記憶部
Claims (3)
- 発言者の音声情報を音声信号に変換して入力する音声入力部と、前記入力された音声信号を文字符号列に変換する音声認識部と、前記変換された文字符号列を所定の単位毎に区切った会話録として作成する会話録作成部と、発言者を撮像する画像入力部と、前記撮像された人物の唇部の形状変化から発言者を特定する発言者識別部と、前記識別された発言者のサムネイル顔画像を生成するサムネイル顔画像生成部と、前記生成されたサムネイル顔画像と前記作成された会話録とを合わせて記憶するサムネイル顔画像/会話録記憶部と、を備えたことを特徴とする会話収録装置。
- 一時的に記憶されたヘッダーとしてサムネイル顔画像を付加され、音声認識により文字符号化された一連の会話内容を記録する記録手段を備えたことを特徴とする特許請求の範囲第1項記載の会話収録装置。
- 発言者の音声情報を音声信号に変換して入力する音声入力手段と、前記受信された音声信号をデジタル信号化するコーデック部と、発言者を撮像する画像入力部と、前記撮像された人物の唇部の形状変化から発言者を特定する発言者識別部と、前記識別された発言者のサムネイル顔画像を生成するサムネイル顔画像生成部と、前記生成されたサムネイル顔画像と前記コーデックされた会話録とを関連付けて無線送信する無線送信手段と、から構成される画像/音声収録部と、無線受信手段によって受信された無線情報の内のコーデックされたデジタル信号から音声信号に復元するデコーダ部と、前記デコードされた音声信号を文字符号に変換する音声認識部と、前記変換された文字符号列を所定の単位毎に区切った会話録として作成する会話録作成部と、前記作成された会話録と前記サムネイル顔画画像を合わせて記憶するサムネイル顔画像/会話録記憶部と、から構成される情報処理/記憶部と、から構成されたことを特徴とする会話収録装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005045577A JP2006235712A (ja) | 2005-02-22 | 2005-02-22 | 会話収録装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005045577A JP2006235712A (ja) | 2005-02-22 | 2005-02-22 | 会話収録装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006235712A true JP2006235712A (ja) | 2006-09-07 |
Family
ID=37043327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005045577A Withdrawn JP2006235712A (ja) | 2005-02-22 | 2005-02-22 | 会話収録装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006235712A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008193196A (ja) * | 2007-02-01 | 2008-08-21 | Casio Comput Co Ltd | 撮像装置および指定音声出力方法 |
KR101077267B1 (ko) | 2010-01-19 | 2011-10-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
JP2012014394A (ja) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
CN109587429A (zh) * | 2017-09-29 | 2019-04-05 | 北京国双科技有限公司 | 音频处理方法和装置 |
CN112037791A (zh) * | 2020-08-12 | 2020-12-04 | 广东电力信息科技有限公司 | 会议纪要转录方法、设备和存储介质 |
CN114666639A (zh) * | 2022-03-18 | 2022-06-24 | 海信集团控股股份有限公司 | 视频播放方法及显示设备 |
US11561760B2 (en) | 2018-06-15 | 2023-01-24 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
-
2005
- 2005-02-22 JP JP2005045577A patent/JP2006235712A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008193196A (ja) * | 2007-02-01 | 2008-08-21 | Casio Comput Co Ltd | 撮像装置および指定音声出力方法 |
KR101077267B1 (ko) | 2010-01-19 | 2011-10-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
JP2012014394A (ja) * | 2010-06-30 | 2012-01-19 | Nippon Hoso Kyokai <Nhk> | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
CN109587429A (zh) * | 2017-09-29 | 2019-04-05 | 北京国双科技有限公司 | 音频处理方法和装置 |
US11561760B2 (en) | 2018-06-15 | 2023-01-24 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
CN112037791A (zh) * | 2020-08-12 | 2020-12-04 | 广东电力信息科技有限公司 | 会议纪要转录方法、设备和存储介质 |
CN114666639A (zh) * | 2022-03-18 | 2022-06-24 | 海信集团控股股份有限公司 | 视频播放方法及显示设备 |
CN114666639B (zh) * | 2022-03-18 | 2023-11-03 | 海信集团控股股份有限公司 | 视频播放方法及显示设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101533065B1 (ko) | 화상통화 중 애니메이션 효과 제공 방법 및 장치 | |
EP2574220B1 (en) | Hand-held communication aid for individuals with auditory, speech and visual impairments | |
JP2006235712A (ja) | 会話収録装置 | |
US10217465B2 (en) | Wearable device, system and method for name recollection | |
US11527242B2 (en) | Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view | |
CN105957514A (zh) | 一种便携式聋哑人交流设备 | |
EP1045586A3 (en) | Image processing apparatus | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
WO2008029889A1 (fr) | Terminal de traitement des informations, procédé de génération d'informations musicales et programme | |
CN107333090A (zh) | 视频会议数据处理方法和平台 | |
JPWO2005109830A1 (ja) | 会話支援装置及び会話支援方法 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
CN108510988A (zh) | 一种用于聋哑人的语言识别系统及方法 | |
JP2004015478A (ja) | 音声通信端末装置 | |
CN108831472B (zh) | 一种基于唇语识别的人工智能发声系统及发声方法 | |
KR20060133190A (ko) | 수화 인식과 수화 발생을 구현한 양방향 수화 전화 시스템 | |
KR20110066628A (ko) | 독순술을 이용한 휴대전화용 문자 입력 장치 및 방법 | |
JP6543047B2 (ja) | 情報処理装置、制御プログラム、記録媒体 | |
JP2002229592A (ja) | 音声認識装置 | |
JP5427622B2 (ja) | 音声変更装置、音声変更方法、プログラム及び記録媒体 | |
JP2018063352A (ja) | フレーム選択装置、フレーム選択方法及びプログラム | |
KR200294684Y1 (ko) | 대화형 디지털 액자 | |
JP4189744B2 (ja) | 無音声通信システム | |
JP3073176U (ja) | 音声ドライブ動画面用イメージデータ生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080513 |