JP2016029468A - 音声情報制御方法及び端末装置 - Google Patents

音声情報制御方法及び端末装置 Download PDF

Info

Publication number
JP2016029468A
JP2016029468A JP2015136115A JP2015136115A JP2016029468A JP 2016029468 A JP2016029468 A JP 2016029468A JP 2015136115 A JP2015136115 A JP 2015136115A JP 2015136115 A JP2015136115 A JP 2015136115A JP 2016029468 A JP2016029468 A JP 2016029468A
Authority
JP
Japan
Prior art keywords
voice
terminal device
information
voice information
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015136115A
Other languages
English (en)
Other versions
JP6721298B2 (ja
Inventor
美沙貴 辻川
Misaki Tsujikawa
美沙貴 辻川
伊三男 島田
Isao Shimada
伊三男 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2015136115A priority Critical patent/JP6721298B2/ja
Publication of JP2016029468A publication Critical patent/JP2016029468A/ja
Application granted granted Critical
Publication of JP6721298B2 publication Critical patent/JP6721298B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)

Abstract

【課題】多数のマイク等を備えた特別な装置を必要とすることなく、会議の議事録を作成することができる音声情報制御方法及び端末装置を提供する。
【解決手段】端末装置の受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムにおける端末装置の音声情報制御方法は、第1の音声情報を取得し、第1の音声情報のうち、端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、特定した時間区間に含まれる音声情報を、サーバ装置に送信する。
【選択図】図4

Description

本開示は、音声を取得してテキストを作成するテキスト作成システムにおける、音声情報制御方法および端末装置に関する。
会議などの音声を取得して、取得した音声をテキスト化し、議事録として記録をすることのできるテキスト作成システムの検討がされている。
特開2008−309856号公報
ただし従来のテキスト作成システムでは、音声の集音に特殊なマイクロフォン装置を必要としており、容易に発話者の認識と音声のテキスト化による議事録作成を行う方法について検討が不十分である。
本開示に係る音声情報制御方法は、端末装置から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置の音声情報制御方法であって、
第1の音声情報を取得し、
前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、
前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する。
本テキスト作成システムにおける音声情報制御方法によれば、多数のマイク等を備えた特別な装置を必要とすることなく、会議の議事録を作成することができる。
図1Aは、実施の形態1におけるテキスト作成システムの全体像の一例を示す図である。 図1Bは、実施の形態1におけるテキスト作成システムの全体像の一例を示す図である。 図2Aは、実施の形態1におけるテキスト作成システムにおける各構成の一例を示す図である。 図2Bは、実施の形態1におけるテキスト作成システムにおける各構成の一例を示す図である。 図3Aは、制御・処理部の機能構成の一例を示す図である。 図3Bは、制御・処理部の機能構成の一例を示す図である。 図4は、テキスト作成システムの各機能構成の動作および処理の一例を示すフローチャートである。 図5は、各端末装置が取得する音声情報のイメージの一例を示す図である。 図6は、音声情報に対して、各端末装置の持ち主が発話した区間を特定したイメージの一例を示す図である。 図7は、サーバに送信する各端末それぞれの音声情報のイメージの一例を示す図である。 図8は、サーバ装置が端末装置から取得した音声情報に関して、各音声情報をテキスト化したイメージの一例を示す図である。 図9は、作成した議事録の一例を示す図である。 図10Aは、サーバ装置の通信部によって送信された議事録を端末装置にて表示している一例を示す図である。 図10Bは、サーバ装置の通信部によって送信された議事録を端末装置にて表示している一例を示す図である。 図11は、本実施の形態におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。 図12は、実施の形態1の変形例1におけるテキスト作成システムの各機能構成の動作および処理の流れを示すフローチャートである。 図13は、実施の形態1の変形例1におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。 図14は、実施の形態1の変形例2におけるテキスト作成システムの各機能構成の動作および処理の一例を示すフローチャートである。 図15は、実施の形態1の変形例2におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。 図16は、本テキスト作成システムが判定した発話区間(X)および発話区間以外の区間(Y)の一例を示す図である。
(発明の基礎となった知見)
従来のテキスト作成システムでは、音声の集音に特殊なマイクロフォン装置を必要としており、容易に発話者の認識と音声のテキスト化による議事録作成を行う方法について検討が不十分である。
特許文献1では、各参加者に対応する数のマイクロフォンを用意し、各マイクロフォンにて取得した音声を収集し議事録を作成するシステムが開示されている。またこの際に、各マイクロフォンにて取得した音声に、当該マイクロフォンに対応する参加者以外の音声が入り込んだ場合などにおける処理方法が開示されている。たとえば各マイクロフォンにて取得した音声に対して音源分離を行うなどの方法によって、複数音源のうちどの音源がどの参加者の発話かを区分している。
しかし、上記でも記載したとおり、特許文献1に開示のテキスト作成システムでは、多数のマイクを含む当該システム専用の特殊な装置を必要とする。よって結果的に装置自体が高価となってしまうという問題があった。また、特許文献1に記載の通り会議参加者分のマイクが必要となるため、参加人数の異なる様々な会議に柔軟に対応できるテキスト作成システムとはなっていない。
本開示に係る端末装置の音声情報制御方法は、端末装置から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置の音声情報制御方法であって、第1の音声情報を取得し、前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する。
また、本開示の一態様では、前記端末装置は前記第1の話者に関する音声情報を含む音声モデルを保持しており、前記特定は、前記第1の音声情報と前記音声モデルとを比較することで行われる。
また、本開示の一態様では、前記送信において、前記特定した時間区間に含まれる第2の音声情報のみを、前記サーバ装置に送信し、前記送信において、前記特定した時間区間以外の時間区間に含まれる第1の音声情報を前記サーバ装置に送信しない。
また、本開示の一態様では、前記第1の端末は前記特定した時間区間に含まれる第2の音声情報を前記端末装置の記録媒体に蓄積し、所定のタイミングで蓄積した前記第2の音声情報を送信する。
また、本開示の一態様では、前記所定のタイミングは、前記端末装置が取得する前記第1の音声情報が、所定の音圧レベル以下となったタイミングである。
また、本開示の一態様では、前記所定のタイミングは、前記特定した第2の音声情報含まれる時間区間以外の時間区間におけるタイミングである。
また、本開示の一態様では、前記所定のタイミングは、前記第1の話者が利用する前記端末装置を介して前記システムを終了させる指示をしたタイミングである。
また、本開示の一態様では、前記第1の音声情報の取得、第2の音声情報が含まれる時間区間の特定、前記サーバ装置への送信のうちの少なくとも1つは、プロセッサにより行われる。
また、本開示の一態様では、前記第1の音声情報の取得、第2の音声情報が含まれる時間区間の特定、前記サーバ装置への送信のうちの少なくとも1つは、前記端末装置のプロセッサにより行われる。
また、本開示に係るサーバ装置の音声情報制御方法は、前記複数の端末装置の各々から受信した音声情報を基にテキストデータを作成するシステムにおける前記サーバ装置の音声情報制御方法であって、前記複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、前記複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、前記時刻情報に基づき前記複数のテキストデータを時刻順に統合する。
また、本開示の一態様では、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記統合したテキストデータを送信する。
また、本開示の一態様では、前記複数の端末装置のうち第1の端末装置から受信した音声情報に対応する第1の音声情報は、前記第1の端末を保有している第1の話者の発話音声である第2の音声情報を含む。
また、本開示の一態様では、前記複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである。
また、本開示の一態様では、前記複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が保有している端末装置を特定する。
また、本開示の一態様では、前記複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第1の発話区間において最も高い音圧レベルを有している端末装置を、前記第1の発話区間における発話者が利用している端末装置であると特定する。
また、本開示の一態様では、前記複数の端末装置のうち第1の端末装置から受信した音声情報と、第2の端末装置から受信した音声情報とを比較することで、前記第1の端末を保有している第1の話者の発話音声を特定し、前記第2の端末装置から受信した音声情報に基づいて、第2の端末を保有している第2の話者の発話音声ではない音声情報をノイズ音声として特定し、前記第1の端末装置から受信した音声情報を用いて前記音声認識・テキスト化を行う前に前記第1の音声情報から前記特定した前記ノイズ音声を除去する。
また、本開示の一態様では、さらに、音声情報を取得した端末装置と前記時刻情報と前記テキスト化したテキストデータを対応付けて議事録を作成し、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記作成した議事録を送信する。
また、本開示の一態様では、前記複数の音声情報および当該複数の音声情報を取得した時刻情報の受信、前記複数のテキストデータの作成、および前記複数のテキストデータの統合のうちの少なくともいずれか1つはプロセッサを用いて行われる。
また、本開示の一態様では、複数の端末装置の各々から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置であって、第1の音声情報を取得する音声取得部と、前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定する制御・処理部と、前記特定した時間区間に含まれる第2の音声情報を、前記サーバ装置に送信する通信部と、を備えた端末装置であってもよい。
また、本開示の一態様では、前記端末装置は前記第1の話者に関する音声情報を含む音声モデルを保持する記録部を備え、前記制御・処理部は、前記第1の音声情報と前記音声モデルとを比較することで、前記第1の音声情報のうち前記第2の音声情報が含まれる時間区間を特定する。
また、本開示の一態様では、前記制御・処理部は前記通信部にて前記特定した時間区間に含まれる第2の音声情報のみを、前記サーバ装置に送信し、前記特定した時間区間以外の時間区間に含まれる第1の音声情報を前記サーバ装置に送信しない。
また、本開示の一態様では、前記音声取得部、前記制御・処理部および前記通信部のうちの少なくともいずれか1つは、プロセッサを含む。
(実施の形態1)
[システムの全体像]
図1A、図1Bには、本テキスト作成システムの全体像を示す。本テキスト作成システムを採用し得る全体像の例として、図1A、図1Bの2つの例を示しているが、これに限られるものではない。以下、各システムについて説明する。
図1Aの例では、会議の参加者A〜Dの全員がそれぞれ端末装置2100を保有している。会議の参加者A〜Dの各々の端末装置2100はインターネットを介して室外に配置されたサーバ装置2200と情報を送受信する。図1Aに示すテキスト作成システムにおける音声情報制御方法によってテキスト(議事録)を作成する方法について、以下に説明する。
まず、会議の参加者A〜Dのそれぞれが保有する端末装置2100にて会議参加者の音声を取得する。そして、会議の参加者A〜Dのそれぞれが保有する端末装置2100は取得した音声情報をリアルタイムでサーバ装置2200に送信する。サーバ装置2200は、会議の参加者A〜Dの端末装置2100のそれぞれから受信した音声情報をテキスト化する。またサーバ装置2200はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてサーバ装置2200は作成した議事録を会議の参加者A〜Dのそれぞれが保有する端末装置2100に送信する。なお、端末装置2100と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。
図1Bの例では、会議の参加者A〜Dの全員がそれぞれ端末装置2100を保有している。会議の参加者A〜Dの各々の端末装置2100は有線通信または無線通信によって、室内に配置されたサーバ装置2200と情報を送受信する。図1Aと比較して、サーバ装置2200が室内に配置されている点が異なるが、それ以外は同様であるので説明を省略する。図1Bの例で無線通信によってサーバ装置2200と情報を送受信する方法については、WifiやBluetooth(登録商標)などの無線規格を用いればよい。なお、端末装置2100と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。
以下、各装置の構成や、議事録作成のための処理フローを説明するが、基本的には図1Aのシステムを用いた場合の例を説明する。
[各装置の構成]
図2Aを用いて、実施の形態1におけるテキスト作成システムにおける各構成を説明する。ここでは、図1Aにて説明したシステムにおける各装置の構成について説明するが、これに限られるものではなく、端末装置2100が備える各構成・手段の一部または全部をサーバ装置2200が備えていてもよいし、サーバ装置2200が備える各構成・手段の一部または全部を端末装置2100が備えていてもよい。
端末装置2100は、通信部2101、制御・処理部2102、記録部2103、音声取得部2104、表示部2105、操作部2106、音声再生部2107を備える。
通信部2101は、例えば通信を行う処理回路(通信回路)を含んでもよい。通信部2101は、インターネットを介してサーバ装置2200や他の装置と情報を送受信する。ここで、インターネットを介してと記載したが、物理的に有線を接続することでサーバ装置2200と情報を送受信してもよい。
制御・処理部2102は、取得したあらゆる情報を処理し、あらゆる構成を制御する。例えば後述する音声取得部2104が取得した音声情報を処理する。制御・処理部2102はいわゆる情報処理機能を有するプロセッサ(処理回路ともいう)を含む電子部品である。プロセッサとしては、例えば、CPU(Central Processing Unit)、マイコン(マイクロプロセッサともいう)等を含む。
制御・処理部2102は、例えば、図示しないROM(Read Only Memory)などのメモリ、または記録部2103に記録されたプログラムをCPUが実行することにより、制御・処理部2102が機能するように構成してもよい。
または、制御・処理部2102は、例えば、上述のプログラムに実行により実現される機能をマイコンに組み込んで構成するのでもよい。制御・処理部2102の具体的な機能構成については図3A、図3Bを用いて後述する。
記録部2103は、あらゆる情報を記録する。例えば音声取得部2104が取得した音声情報を記録部2103にて一時的または所定の期間記録しておく。記録部2103は、いわゆるメモリ、またはハードディスクなどの書き込み可能な記録媒体である。
音声取得部2104は、音声情報を取得する。音声取得部2104は、例えば、取得した音声を処理する処理回路を含んでもよい。取得した音声情報は例えばAD変換処理が施され、記録部2103に記録され、または制御・処理部2102によって処理され、または通信部2101によってサーバ装置2200に送信される。音声取得部2104は、いわゆるマイクなどである。
表示部2105は、あらゆる情報を表示する。表示部2105は、いわゆるディスプレイである。
操作部2106は、使用者からの操作・入力を受け付けるインターフェースである。入力の方法は特に限定しない。タッチパネル式の入力方式であってもよいし、ボタン入力であってもよい。操作部2106はいわゆるディスプレイや表示パネルである。
音声再生部2107は、音声を再生する。音声再生部2107は、いわゆるスピーカである。音声再生部2107は必須の構成ではない。
サーバ装置2200は、通信部2201、制御・処理部2202、記録部2203、を備える。サーバ装置2200は各端末装置2100とネットワークを介して接続することが可能である。サーバ装置2200は例えばクラウド上に配置されたサーバであり、設置場所等は特に限定しない。
通信部2201は、例えば通信を行う処理回路(通信回路)を含んでもよい。通信部2201は、各端末装置2100が取得した音声情報を受信し、後述する制御・処理部2202が処理した情報を端末装置2100に送信する。
制御・処理部2202は受信した音声情報を処理する。制御・処理部2202は、いわゆる情報処理機能を有するプロセッサを含む電子部品である。プロセッサとしては、例えば、CPU、マイコンを含む。
制御・処理部2202は、例えば、図示しないROMなどのメモリ、または記録部2203に記録されたプログラムをCPUが実行することにより、制御・処理部2202が機能するように構成してもよい。
または、制御・処理部2202は、例えば、上述のプログラムの実行により実現される機能をマイコンに組み込んで構成するのでもよい。
制御・処理部2202が行う処理等については後述する。
記録部2203は、あらゆる端末装置から取得した情報(音声情報など)を記録する。記録部2203は、いわゆるメモリ、ハードディスクなどの書き込み可能な記録媒体である。
以上が各装置の構成の説明となるが、上記した端末装置2100およびサーバ装置2200は必ずしも図2Aに記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。
また図2Bには、図1Bに示すシステムにおけるサーバ装置2200の構成の一例を示す。図2Bに示すようにこの場合、サーバ装置2200がテキスト作成システム専用の装置となり、サーバ装置2200内にすべての構成が集約される。各構成は図2Aと同様なので、同一の名称または符号を用いてその説明を省略する。
[制御・処理部の機能構成]
図3Aは、制御・処理部2102または、制御・処理部2202の機能構成の一例を示す図である。以下各構成について説明する。
なお、制御・処理部2102が図3Aに示す機能構成の一部を備えている場合には、制御・処理部2202が、図3Aのうち制御・処理部2102が備えていない機能構成を備えていればよい。また、制御・処理部2202が図3Aの全ての機能構成を備えている場合には、制御・処理部2102が図3に記載する機能構成をひとつも備えていないことも考えられる。この場合は、端末装置2100の音声取得部2104が取得した音声情報を、通信部2101がそのままサーバ装置2200に送信する。
以下では、制御・処理部2102と制御・処理部2202とによって、図3Bのように機能構成を分担している一例について説明するがこれに限られるわけではない。
図3Bに示すように、端末装置2100の制御・処理部2102は、音声情報取得手段3001と、話者認識手段3002と、通信制御手段3003と、表示制御手段3004と、を備える。また、サーバ装置2200の制御・処理部2202は、音声認識手段3005と、テキスト統合手段3006と、を備える。
本実施の形態におけるテキスト作成システムの音声情報制御方法では、端末装置の受信した音声情報を基にテキストを作成するシステムに用いる端末装置の音声情報制御方法であって、第1の音声情報を取得し、第1の音声情報のうち、端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、特定した時間区間に含まれる音声情報をサーバ装置に送信する。
また、本実施の形態におけるテキスト作成システムの音声情報制御方法では、複数の端末装置の各々から受信した音声情報を基にテキストを作成するシステムにおけるサーバ装置の音声情報制御方法であって、複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、時刻情報に基づき前記複数のテキストデータを時刻順に統合する。
以下、各機能構成の動作および処理の流れを、図4のフローチャートを用いて説明する。なお、本フローチャートでは端末装置2100の処理およびサーバ装置2200の処理を記載している。図11には端末装置2100およびサーバ装置2200の処理をシーケンス図を用いて記載している。
まずステップS4001にて、制御・処理部2102の音声情報取得手段3001は、音声取得部2104(すなわちマイク)が取得した音声情報を取得する。この際AD変換などの処理が制御・処理部2102内で施されてもよいし、音声取得部2104がAD変換をして、制御・処理部2102の音声情報取得手段3001はデジタル化された音声信号を取得してもよい。またこの際、記録部2103が記録している音声情報を取得してもよい。すなわち音声取得部2104が取得した音声情報はいったんすべて一時的に記録部2103に記録されてもよい。
図5には、参加者A〜参加者Dの各端末装置2100が取得する音声情報のイメージの一例を示す図である。
音声情報として、例えば、端末装置2100のマイクで収音したときの音声信号を例に説明をする。
図5において、横軸は収音した時刻、縦軸は音声信号のレベルを示す。
図5に示すように、各端末装置2100が所定の時間間隔で取得した音声信号は、音声情報取得手段3001によって取得・保持される。ここでは、図1Aに示す例において4人の会議の参加者A〜Dが利用するそれぞれの端末装置2100から音声情報を取得していることを示している。
次にステップS4002にて、制御・処理部2102の話者認識手段3002は、音声情報取得手段3001が取得した各音声情報に対して逐次的に話者認識を行う。
図5に示すように、端末装置の持ち主以外の音声や会議の参加者A〜Dの音声以外のノイズも各端末が取得する音声情報に含まれる可能性がある。ここで、会議の参加者A〜Dのそれぞれ保有する端末装置2100は、例えばスマートフォンなどの端末であるため、通話などによって各参加者の音声を事前に取得していることが多く、持ち主の音声情報を取得することは容易である。
よって、例えば参加者Aの端末装置2100の記録部2103によって事前に取得した音声情報から、参加者Aの音声モデルを生成し、記録部2103に事前に保持しておく。参加者Aの音声モデルとは、例えば、参加者Aの発話を端末装置2100のマイクで収音したときの参加者Aの音声信号に対応するデータに基づいて作成された、参加者Aを識別するためのデータである。そして参加者Aの端末装置2100は、取得した音声情報と保持していた参加者Aの音声モデルを照合することで、取得した音声情報に持ち主(参加者A)の発話が含まれるかそうでないかを判別することができる。
参加者Bの端末装置2100についても、同様に、事前に取得した音声情報から、参加者Bの音声モデルを生成し、参加者Bの端末装置2100の記録部2103に事前に保持しておく。
参加者Cの端末装置2100についても、同様に、事前に取得した音声情報から、参加者Cの音声モデルを生成し、参加者Cの端末装置2100の記録部2103に事前に保持しておく。
参加者Dの端末装置2100についても、同様に、事前に取得した音声情報から、参加者Dの音声モデルを生成し、参加者Dの端末装置2100の記録部2103に事前に保持しておく。
そして、参加者Aの端末装置2100と同様に、参加者B〜Dのそれぞれの端末装置2100において、取得した音声情報と保持していた端末装置2100の持ち主の音声モデルを照合することで、取得した音声情報に端末装置2100の持ち主の発話が含まれるかそうでないかを判別する。
また、本テキスト作成システムを最初に利用する際に、ユーザに初期登録(発話)を促すようにすれば、当該端末を保有するユーザの音声モデルを生成・保持することが出来る。
すなわち本音声情報制御方法の一態様では、第1の端末は第1の話者に関する音声情報を蓄積している音声モデルを保持しており、第1の音声情報と音声モデルとを比較することで、第1の音声情報のうち第2の音声情報が含まれる時間区間を特定する。
また、各端末の持ち主のIDと音声モデルを対応付けて管理しているデータベースをサーバ装置2200が保持していてもよい。当該データベースの構築方法は、本テキスト作成システムを利用するユーザに初期登録させる等が考えられるが、特に限定しない。この場合、例えば当該システムを起動した際に各端末装置からID情報をサーバ装置2200に送信し、サーバ装置2200は当該IDに対応する音声モデルを抽出し、サーバ装置2200は抽出した音声モデルを端末装置2100に送信する、等の処理により端末装置が当該端末の音声モデルを保持することができる。
次にステップS4003にて、端末装置2100の制御・処理部2102における話者認識手段3002は、ステップS4002にて話者認識処理を行った結果に基づいて、取得した音声情報のうち当該端末装置の持ち主の音声情報が含まれるか否かを判断する。図6には図5の音声情報に対して、各端末装置の持ち主が発話した区間を特定したイメージを示す。
次に、ステップS4004において、端末装置2100の制御・処理部2102における通信制御手段3003は、各端末の持ち主の発話区間を含む音声情報を時間情報と共にサーバ装置2200に送信するように、通信部2101を制御する。
すなわち本実施の形態の音声情報制御方法の一態様では、端末装置は、送信において、特定した時間区間に含まれる第2の音声情報のみを、サーバ装置に送信し、特定した時間区間以外の時間区間に含まれる第1の音声情報をサーバ装置に送信しない。
また、本音声情報制御方法の一態様では、サーバ装置が、複数の端末装置のうち第1の端末装置から受信した音声情報に対応する第1の音声情報は、第1の端末を保有している第1の話者の発話音声である第2の音声情報を含む。
時間情報とは、たとえば、持ち主の音声情報が始まった時刻と終了した時刻のことである。時刻に関してはあらかじめ各端末間で同期されているものとする。同期方法については限定しない。
図7に、サーバに送信する各端末それぞれの音声情報のイメージを示す。ここでは、通信制御手段3003は、図7に示すように各端末にて取得した音声情報のうち、各端末の持ち主の音声と認識された区間のみを時間情報とともに送信する。なお、送信する情報はこれに限られず、すべての音声情報を送信してもよい。この場合は、各端末にて判断した各端末の持ち主の音声と認識された区間に関してフラグ情報などを付加して、サーバ装置2200の制御・処理部2202が判断できるようにして送信する。
なお、通信制御手段3003が、音声情報をサーバへ送信するタイミングに関しては特に限定しない。例えば予め定められた所定の間隔(30秒ごと、60秒ごと、など)にて送信してもよい。また、端末装置2100が当該端末装置の保有者の音声を認識しなくなったタイミングで送ってもよい。また、端末装置2100が取得している音声の音圧レベルが、所定の音圧レベル以下となったタイミングで送ってもよい。また会議終了であるステップS4005後に一括して送信してもよい。
すなわち本音声情報制御方法における一態様では、第1の端末は特定した時間区間に含まれる第2の音声情報を蓄積し、所定のタイミングで蓄積した第2の音声情報を送信する。
また、本音声情報制御方法における一態様では、所定のタイミングは、前記端末装置が取得する第1の音声情報が、所定の音圧レベル以下となったタイミングである。
また、本音声情報制御方法における一態様では、所定のタイミングは、特定した第2の音声情報含まれる時間区間以外の時間区間におけるタイミングである。
また、本音声情報制御方法における一態様では、所定のタイミングは、前記第1の話者が利用する端末装置を介して前記システムを終了させる指示をしたタイミングである。
次にステップS4005にて、端末装置2100の通信制御手段3003は、会議終了であることがユーザから明示的に示された場合に、サーバ装置2200へ会議の終了を通知する。
会議終了を知らせる方法については、会議終了ボタンを表示制御手段3004が各端末の表示部2105に表示していてもよいし、特定の単語を発話することで終了としてもよい。
また、必ずしも会議終了が通知された後にステップS4006に進まなくてもよい。すなわちステップS4006にて行うサーバ装置2200によるテキスト化処理等は、ステップS4004にて音声情報がサーバ装置に送信された後に適宜行ってもよい。
次にステップS4006にて、サーバ装置2200の制御・処理部2202における音声認識手段3005はステップS4004にて取得していた音声情報に対して音声認識を行い、音声情報を文字情報としてテキスト化する。
図8には、サーバ装置2200が端末装置2100から受信した音声情報に関して、各音声情報をテキスト化したイメージを示す。
音声情報のテキスト化は、ステップS4004において音声情報をサーバ装置2200に送信するごとに行ってもよい。また、端末装置2100が音声のテキスト化に関する機能を有している場合は、端末側で音声情報をテキスト化し、テキスト化された音声と時間情報のみをサーバに送信してもよい。
次に、ステップS4007にて、サーバ装置2200の制御・処理部2202におけるテキスト統合手段3006はテキスト化された文章を統合し、話者情報、時間情報を用いて議事録を作成する。
図9に作成した議事録の一例を示す。このとき、取得できる各情報を全て使用してもよいし、一部のみを使用していてもよい。
次に、ステップS4008にて、サーバ装置2200の通信部2201は作成した議事録を各端末装置2100に送信する。ここで、各端末装置2100に送信する情報は、各々同一の情報であってもよいし、各々異なる情報であってもよい。
すなわち、本音声情報制御方法における一態様では、音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、作成したテキストデータを送信する。
図10A、図10Bは、ステップS4008にてサーバ装置2200の通信部2201によって送信された議事録を端末装置2100にて表示している例を示す。図10Aは各端末装置によって同一の表示をしている場合の表示例で、図10Bは各端末装置によって異なる表示をしている場合の表示例である。図10Aでは、発話者と発話内容が時刻順に表示されており、各端末同様の表示がされている。図10Bでは、図10A同様に発話者と発話内容が時刻順に表示されているが、例えば会議参加者であるCさんの端末装置2100にはCさんの発話内容が、他者の発話内容と異なる表示形式で表示されている。ここで異なる表示形式とは、異なる色・フォント・文字の大きさ等様々考えられ、特に限定しない。
なお、各端末に送信後、各端末装置2100上で議事録を修正可能にしてもよい。またその場合、自分が発話した部分のみを修正可能にするように制御してもよい。図10Bのように端末保有者の発話内容に対して表示形式を変更しておけば、発話者は修正可能なテキストを一目で把握できるので、利便性が高い。また、ユーザによって修正可能な範囲が異なってもよい。例えば代表となる端末装置2100によってのみ、議事録を修正できるようにしてもよい。ここで代表となる端末装置2100は、本システム起動時にユーザが設定できるなどが考えられる。
また図11には、本実施の形態におけるテキスト作成システムにおける音声情報制御方法における処理の一例を示すシーケンス図を示す。図11では、図4のフローチャートに示される各ステップが、端末装置2100、サーバ装置2200のいずれで行われているのかを示している。図11に示すシーケンス図では、ステップS4001、ステップS4002、ステップS4003、ステップS4004、およびステップS4005が、端末装置2100において行われる処理であることを示している。
また、ステップS4006、ステップS4007、およびステップS4008が、サーバ装置2200において行われる処理であることを示している。
図11に示すシーケンス図において、図4と同一の符号を付したものは、処理が同一であるため、ここでは説明を省略する。
なお、図11においては、1台の端末装置2100と、サーバ装置2200のとの処理を示しているが、例えば会議の参加者が複数いる場合においては、参加者のそれぞれが保有する端末装置2100において、ステップS4001〜ステップS4005の処理が行われる。
この場合、サーバ装置2200において、各端末装置2100から送信される音声情報を用いて、ステップS4006〜ステップS4007の処理が行われる。
また、サーバ装置2200において行われる、ステップS4008では、例えば、作成した議事録は、会議に参加する参加者の各端末装置2100に送信する。
以上、本実施の形態におけるテキスト作成システムにおける音声情報制御方法によれば、多数のマイクを必要とせず、各参加者が持ち込んだ端末装置にて音声を収音する。また図1Aのように収音した音声に対して音声認識・テキスト化処理はネットワークを介してクラウドサーバ上で行う場合は、会議参加者はテキスト作成システムの専用装置を用意する必要がない。また各人が個人所有の端末装置(スマートフォンなど)に対して本テキスト作成システムを実行するアプリケーションをインストールして持ち寄ればよいので、会議の度に会議の主催者が参加者分の数のマイクを用意するなどの手間がなくなる。
また本テキスト作成システムにおける音声情報制御方法によれば、各端末にて話者認識処理を行うことで、当該端末の持ち主の発話が含まれる音声のみをサーバ上に送信することが出来る。よって送信する音声情報の情報量を削減することが出来る。
(実施の形態1における変形例1)
本実施の形態における変形例1の音声情報制御方法を以下説明する。本変形例では図4にて説明した本実施の形態のシステムにおいて、ステップS4002もしくはステップS4003において行った話者認識の処理を省略し、端末装置2100側の処理量を軽くしたものである。当該変形例に関するフローチャートを図12に、シーケンス図を図13に記載する。以下図4のフローチャートと異なる処理を中心に説明する。
ステップS4001およびステップS4004は図4の処理と同様である。ただし本変形例では図4に示したステップS4002およびステップS4003に関しては端末装置2100で実行しない。すなわちこの場合ステップS4004にて各端末で取得した音声をそのまますべてサーバ装置2200に送信する。
すなわち、本音声情報制御方法における一態様では、本複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである。
ステップS4005の処理も図4の処理と同様である。
そしてステップS1100にて、サーバ装置2200の制御・処理部2202は、取得した各音声情報に対してどの端末装置2100の保有者の音声かを識別する。具体的にはある時刻において、各端末装置2100によって取得した複数の音声情報の音圧レベルを比較し、最大の音圧レベルで音声情報を取得している端末装置2100をその時刻における発話者の保有する端末装置2100であることを判断する。
すなわち、本音声情報制御方法における一態様では、複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が利用している端末装置を特定する。
すなわち、本音声情報制御方法における一態様では、複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第1の発話区間において最も高い音圧レベルを有している端末装置を、第1の発話区間における発話者が利用している端末装置であると特定する。
なおここでは音圧レベルを比較して発話者の端末を判断したがそれに限られない。サーバ装置2200が端末持ち主のIDと音声モデルを紐付けて管理しているデータベースを保持している場合は、サーバ装置2200上で話者識別を行うことができる。よってこれにより各時刻における発話者の端末装置2100を特定することが出来る。
そして、ステップS4006にて、各音声情報をテキスト化する。本ステップは図4にて説明した処理と同様であるので説明を省略する。
そしてステップS4007では、ステップS1100にて判断された時間ごとに発話者と判断された端末において取得した音声に対してテキスト化された情報を統合する。
ステップS4008に関しては図4の処理と同様である。
図13は、本実施の形態における変形例1の音声情報制御方法の処理の一例を示すシーケンス図である。図13では、図12のフローチャートに示される各ステップが、端末装置2100、サーバ装置2200のいずれで行われているのかを示している。
図13に示すシーケンス図では、ステップS4001、ステップS4004、およびステップS4005が、端末装置2100において行われる処理であることを示している。
また、ステップS1100、ステップS4006、ステップS4007、およびステップS4008が、サーバ装置2200において行われる処理であることを示している。
また図13のシーケンス図において、図12と同一の符号を示したものは、図12で示した処理と同一であるので、ここでは説明を省略する。
以上の変形例によれば、端末装置2100側における処理量が削減できる。
(実施の形態1における変形例2)
本実施の形態における変形例2の音声情報制御方法を以下説明する。本変形例では図12にて説明した本実施の形態の変形例1におけるシステムに、サーバ装置2200におけるノイズ除去に関する処理を追加したものである。当該変形例に関するフローチャートを図14に、シーケンス図を図15に記載する。以下図4のフローチャートと異なる処理を中心に説明する。
本変形例においては、ステップS4001〜S4005、ステップS4006〜S4008までの処理は図12に示したフローチャートにおける処理と同様である。図12に示した処理と異なる点は、ステップS1400を追加した点である。
変形例1にて説明したステップS1100にて各音声情報に対してどの端末の保有者の音声かを識別した後にステップS1400に進む。
ステップS1400にてサーバ装置2200では、各音声情報の相関を利用してノイズを削除する。サーバ装置2200は各端末装置2100が取得したすべての音声情報を取得している(各端末装置2100は会議中のすべて時間において取得した音声情報をすべて送信している)。よって、取得した各音声情報の相関を利用することによって、ノイズ除去を行うことが出来る。
例えば、まずサーバ装置2200の制御・処理部2202は、参加者A〜Dのそれぞれの端末装置2100から取得した音声情報について、端末装置2100の持ち主が発話した発話区間とそうでない区間を区別する。図16には、本システムが判定した発話区間(X)および発話区間以外の区間(Y)を示す。発話区間かそうでないかの判定は、例えば音圧レベルが閾値以上である場合に発話区間であると判定し、音圧レベルが閾値より小さければ、発話区間ではないと判定するなどが考えられる。
そしてサーバ装置2200の制御・処理部2202は、ある端末装置2100(例えば端末A)の発話区間(X)の値から、当該発話区間(X)と同時刻において当該端末装置以外の端末装置2100(例えば端末B・C・D)にて検出した発話区間以外の区間(Y)の値を引くことで、ノイズを除去する。
すなわち、本音声情報制御方法における一態様では、複数の端末装置のうち第1の端末装置から受信した音声情報と、第2の端末装置から受信した音声情報とを比較することで、第1の端末を保有している第1の話者の発話音声を特定し、前記第2の端末装置から受信した音声情報に基づいて、第2の端末を保有している第2の話者の発話音声ではない音声情報をノイズ音声として特定し、第1の端末装置から受信した音声情報を用いて音声認識・テキスト化を行う前に第1の端末装置から受信した音声情報から特定したノイズ音声を除去する。
図15は、本実施の形態における変形例2の音声情報制御方法の処理の一例を示すシーケンス図である。図15では、図14のフローチャートに示される各ステップが、端末装置2100、サーバ装置2200のいずれで行われているのかを示している。
図15に示すシーケンス図では、ステップS4001、ステップS4004、およびステップS4005が、端末装置2100において行われる処理であることを示している。
また、ステップS1100、ステップS1400、ステップS4006、ステップS4007、およびステップS4008が、サーバ装置2200において行われる処理であることを示している。
また図15のシーケンス図において、図12と同一の符号を示したものは、図12で示した処理と同一であるので、ここでは説明を省略する。
また図15のシーケンス図において、図14と同一の符号を付したものは、図14に示す処理と同一であるため、ここでは説明を省略する。
以上、本変形例では各端末装置2100各々から取得した音声情報の各々の相関を利用し、ノイズを除去する。よって音声認識テキスト化処理の際の誤認識を低減できる。
本開示は、音声を取得してテキストを作成するテキスト作成システムにおける、音声情報制御方法および端末装置に有用である。
また、本開示の音声情報制御方法は、遠隔会議システムや遠隔会議装置、議事録作成システムや議事録作成装置、また携帯端末(スマートフォン・タブレット)向けの音声認識アプリケーション、などに適用可能である。
2100 端末装置
2101 通信部
2102 制御・処理部
2103 記録部
2104 音声取得部
2105 表示部
2106 操作部
2107 音声再生部
2200 サーバ装置
2201 通信部
2202 制御・処理部
2203 記録部
3001 音声情報取得手段
3002 話者認識手段
3003 通信制御手段
3004 表示制御手段
3005 音声認識手段
3006 テキスト統合手段

Claims (21)

  1. 端末装置から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムにおける前記端末装置の音声情報制御方法であって、
    第1の音声情報を取得し、
    前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定し、
    前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する、
    音声情報制御方法。
  2. 前記端末装置は前記第1の話者に関する音声情報を含む音声モデルを保持しており、
    前記特定は、前記第1の音声情報と前記音声モデルとを比較することで行われる、
    請求項1に記載の音声情報制御方法。
  3. 前記送信において、前記特定した時間区間に含まれる第2の音声情報のみが、前記サーバ装置に送信され、
    前記送信において、前記特定した時間区間以外の時間区間に含まれる第1の音声情報を、前記サーバ装置に送信しない、
    請求項1に記載の音声情報制御方法。
  4. 前記音声情報制御方法は、更に、
    前記特定した時間区間に含まれる第2の音声情報を前記端末装置の記録媒体に蓄積し、
    所定のタイミングで蓄積した前記第2の音声情報を送信する、
    請求項1に記載の音声情報制御方法。
  5. 前記所定のタイミングは、前記端末装置が取得する前記第1の音声情報が、所定の音圧レベル以下となったタイミングである、
    請求項4に記載の音声情報制御方法。
  6. 前記所定のタイミングは、前記特定した第2の音声情報含まれる時間区間以外の時間区間におけるタイミングである、
    請求項4に記載の音声情報制御方法。
  7. 前記所定のタイミングは、前記第1の話者が利用する前記端末装置を介して前記システムを終了させる指示をしたタイミングである、
    請求項4に記載の音声情報制御方法。
  8. 前記第1の音声情報の取得、第2の音声情報が含まれる時間区間の特定、前記サーバ装置への送信のうちの少なくとも1つは、前記端末装置のプロセッサにより行われる請求項1に記載の音声情報制御方法。
  9. 複数の端末装置の各々から受信した音声情報を基にテキストデータを作成するシステムにおけるサーバ装置の音声情報制御方法であって、
    前記複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、
    前記複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、
    前記時刻情報に基づき前記複数のテキストデータを時刻順に統合する、
    音声情報制御方法。
  10. さらに、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記統合したテキストデータを送信する、
    請求項9に記載の音声情報制御方法。
  11. 前記複数の端末装置のうち第1の端末装置から受信した音声情報に対応する第1の音声情報は、前記第1の端末装置を保有している第1の話者の発話音声である第2の音声情報を含む、
    請求項10に記載の音声情報制御方法。
  12. 前記複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである、
    請求項10に記載の音声情報制御方法。
  13. 前記複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が保有している端末装置を特定する、
    請求項12に記載の音声情報制御方法。
  14. 前記複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第1の発話区間において最も高い音圧レベルを有している端末装置を、前記第1の発話区間における発話者が利用している端末装置であると特定する、
    請求項13に記載の音声情報制御方法。
  15. 前記複数の端末装置のうち第1の端末装置から受信した音声情報と、第2の端末装置から受信した音声情報とを比較することで、前記第1の端末を保有している第1の話者の発話音声を特定し、
    前記第2の端末装置から受信した音声情報に基づいて、第2の端末を保有している第2の話者の発話音声ではない音声情報をノイズ音声として特定し、
    前記第1の端末装置から受信した音声情報を用いて前記音声認識・テキスト化を行う前に前記第1の音声情報から前記特定した前記ノイズ音声を除去する、
    請求項12に記載の音声情報制御方法。
  16. さらに、前記音声情報を取得した端末装置と前記時刻情報と前記テキスト化したテキストデータを対応付けて議事録を作成し、
    前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記作成した議事録を送信する、
    請求項10に記載の音声情報制御方法。
  17. 前記複数の音声情報および当該複数の音声情報を取得した時刻情報の受信、前記複数のテキストデータの作成、および前記複数のテキストデータの統合のうちの少なくともいずれか1つはプロセッサを用いて行われる請求項9に記載の音声情報制御方法。
  18. 複数の端末装置の各々から音声情報を受信し、前記複数の端末装置の各々から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムにおける端末装置であって、
    第1の音声情報を取得する音声取得部と、
    前記第1の音声情報のうち、前記端末装置を利用している第1の話者の発話音声である第2の音声情報が含まれる時間区間を特定する制御・処理部と、
    前記特定した時間区間に含まれる第2の音声情報を、前記サーバ装置に送信する通信部と、
    を備えた端末装置。
  19. 前記端末装置は前記第1の話者に関する音声情報を含む音声モデルを保持する記録部を備え、
    前記制御・処理部は、前記第1の音声情報と前記音声モデルとを比較することで、前記第1の音声情報のうち前記第2の音声情報が含まれる時間区間を特定する、
    請求項18に記載の端末装置。
  20. 前記制御・処理部は前記通信部にて、
    前記特定した時間区間に含まれる第2の音声情報のみを、前記サーバ装置に送信し、
    前記特定した時間区間以外の時間区間に含まれる第1の音声情報を前記サーバ装置に送信しない、
    請求項18に記載の端末装置。
  21. 前記音声取得部、前記制御・処理部および前記通信部のうちの少なくともいずれか1つは、プロセッサを含む請求項18に記載の端末装置。
JP2015136115A 2014-07-16 2015-07-07 音声情報制御方法及び端末装置 Active JP6721298B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015136115A JP6721298B2 (ja) 2014-07-16 2015-07-07 音声情報制御方法及び端末装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014146096 2014-07-16
JP2014146096 2014-07-16
JP2015136115A JP6721298B2 (ja) 2014-07-16 2015-07-07 音声情報制御方法及び端末装置

Publications (2)

Publication Number Publication Date
JP2016029468A true JP2016029468A (ja) 2016-03-03
JP6721298B2 JP6721298B2 (ja) 2020-07-15

Family

ID=55075084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015136115A Active JP6721298B2 (ja) 2014-07-16 2015-07-07 音声情報制御方法及び端末装置

Country Status (2)

Country Link
US (2) US10297257B2 (ja)
JP (1) JP6721298B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167318A (ja) * 2016-03-16 2017-09-21 株式会社アドバンスト・メディア 議事録生成装置、及び議事録生成プログラム
JP2019056746A (ja) * 2017-09-20 2019-04-11 株式会社野村総合研究所 データ変換装置
JP2019176386A (ja) * 2018-03-29 2019-10-10 株式会社リコー 通信端末及び会議システム
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JPWO2021059497A1 (ja) * 2019-09-27 2021-04-01
JP2021081483A (ja) * 2019-11-15 2021-05-27 前田建設工業株式会社 議事録データ作成システム
WO2022019157A1 (ja) * 2020-07-20 2022-01-27 ラトナ株式会社 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体
JP2022071960A (ja) * 2020-10-29 2022-05-17 株式会社Nsd先端技術研究所 発言切り分けシステムとその方法
JP2022120164A (ja) * 2018-11-21 2022-08-17 株式会社リコー 音声認識システム、音声認識方法、及び音声処理装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6721298B2 (ja) * 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置
US10379348B2 (en) * 2016-09-13 2019-08-13 Facebook Technologies, Llc Hybrid fresnel lens with increased field of view
US10923128B2 (en) 2018-08-29 2021-02-16 Cirrus Logic, Inc. Speech recognition
EP3660848A1 (en) * 2018-11-29 2020-06-03 Ricoh Company, Ltd. Apparatus, system, and method of display control, and carrier means
CN110808037B (zh) * 2019-11-14 2021-12-21 广东美的制冷设备有限公司 语音控制方法、装置、家电设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009075211A1 (ja) * 2007-12-10 2009-06-18 Sharp Kabushiki Kaisha 自動発話者判別記録装置及び自動発話者判別記録システム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
US6427137B2 (en) * 1999-08-31 2002-07-30 Accenture Llp System, method and article of manufacture for a voice analysis system that detects nervousness for preventing fraud
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
JP2001160027A (ja) * 1999-09-21 2001-06-12 Just Syst Corp ネットワークシステム、情報提供システム、情報提供方法、サーバ装置及び記録媒体
JP4352312B2 (ja) * 2003-08-08 2009-10-28 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP4551668B2 (ja) * 2004-02-25 2010-09-29 パイオニア株式会社 議事録ファイル生成方法、議事録ファイル管理方法、会議サーバおよびネットワーク会議システム
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
JP4867804B2 (ja) 2007-06-12 2012-02-01 ヤマハ株式会社 音声認識装置及び会議システム
JP5349860B2 (ja) * 2008-08-07 2013-11-20 株式会社バンダイナムコゲームス プログラム、情報記憶媒体及びゲーム装置
US8768705B2 (en) * 2009-10-27 2014-07-01 Cisco Technology, Inc. Automated and enhanced note taking for online collaborative computing sessions
US9014358B2 (en) * 2011-09-01 2015-04-21 Blackberry Limited Conferenced voice to text transcription
US9911421B2 (en) * 2013-06-10 2018-03-06 Panasonic Intellectual Property Corporation Of America Speaker identification method, speaker identification apparatus, and information management method
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
JP6721298B2 (ja) * 2014-07-16 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声情報制御方法及び端末装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009075211A1 (ja) * 2007-12-10 2009-06-18 Sharp Kabushiki Kaisha 自動発話者判別記録装置及び自動発話者判別記録システム
JP2013011744A (ja) * 2011-06-29 2013-01-17 Mizuho Information & Research Institute Inc 議事録作成システム、議事録作成方法及び議事録作成プログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017167318A (ja) * 2016-03-16 2017-09-21 株式会社アドバンスト・メディア 議事録生成装置、及び議事録生成プログラム
JP7088645B2 (ja) 2017-09-20 2022-06-21 株式会社野村総合研究所 データ変換装置
JP2019056746A (ja) * 2017-09-20 2019-04-11 株式会社野村総合研究所 データ変換装置
JP2019176386A (ja) * 2018-03-29 2019-10-10 株式会社リコー 通信端末及び会議システム
JP7095356B2 (ja) 2018-03-29 2022-07-05 株式会社リコー 通信端末及び会議システム
JP7420166B2 (ja) 2018-11-21 2024-01-23 株式会社リコー 音声認識システム、音声認識方法、及び音声処理装置
JP2022120164A (ja) * 2018-11-21 2022-08-17 株式会社リコー 音声認識システム、音声認識方法、及び音声処理装置
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JP6999734B2 (ja) 2019-05-10 2022-01-19 ネイバー コーポレーション オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JPWO2021059497A1 (ja) * 2019-09-27 2021-04-01
JP7347520B2 (ja) 2019-09-27 2023-09-20 日本電気株式会社 音信号処理装置、音信号処理方法および音信号処理プログラム
WO2021059497A1 (ja) * 2019-09-27 2021-04-01 日本電気株式会社 音信号処理装置、音信号処理方法および記憶媒体
JP2021081483A (ja) * 2019-11-15 2021-05-27 前田建設工業株式会社 議事録データ作成システム
WO2022019157A1 (ja) * 2020-07-20 2022-01-27 ラトナ株式会社 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体
JP2022071960A (ja) * 2020-10-29 2022-05-17 株式会社Nsd先端技術研究所 発言切り分けシステムとその方法
JP7356960B2 (ja) 2020-10-29 2023-10-05 株式会社Nsd先端技術研究所 発言切り分けシステムとその方法

Also Published As

Publication number Publication date
US20160019894A1 (en) 2016-01-21
US10573318B2 (en) 2020-02-25
US10297257B2 (en) 2019-05-21
US20190228775A1 (en) 2019-07-25
JP6721298B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
JP6721298B2 (ja) 音声情報制御方法及び端末装置
CN106657865B (zh) 会议纪要的生成方法、装置及视频会议系统
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
JP6620230B2 (ja) 迅速な識別方法及び家庭用の知能ロボット
US9538005B1 (en) Automated response system
TWI616868B (zh) 會議記錄裝置及其自動生成會議記錄的方法
JP4085924B2 (ja) 音声処理装置
KR102225404B1 (ko) 디바이스 정보를 이용하는 음성인식 방법 및 장치
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
JP2017003611A (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2005080110A (ja) 音声会議システム、音声会議端末装置およびプログラム
JP2020095210A (ja) 議事録出力装置および議事録出力装置の制御プログラム
KR20160108874A (ko) 대화록 자동 생성 방법 및 장치
CN111223487B (zh) 一种信息处理方法及电子设备
EP2503545A1 (en) Arrangement and method relating to audio recognition
JP6091690B1 (ja) 議会運営支援システム及び議会運営支援方法
WO2019187521A1 (ja) 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ
EP2913822B1 (en) Speaker recognition
JP2008109686A (ja) 音声会議端末装置およびプログラム
CN110808062B (zh) 混合语音分离方法和装置
US7006968B2 (en) Document creation through embedded speech recognition
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2018010110A (ja) サーバ装置、制御システム、方法、情報処理端末、および制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20191002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200618

R150 Certificate of patent or registration of utility model

Ref document number: 6721298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150