JP7218547B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP7218547B2
JP7218547B2 JP2018215167A JP2018215167A JP7218547B2 JP 7218547 B2 JP7218547 B2 JP 7218547B2 JP 2018215167 A JP2018215167 A JP 2018215167A JP 2018215167 A JP2018215167 A JP 2018215167A JP 7218547 B2 JP7218547 B2 JP 7218547B2
Authority
JP
Japan
Prior art keywords
information
organization
speaker
voice
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018215167A
Other languages
English (en)
Other versions
JP2020085948A (ja
Inventor
徹 羽鳥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018215167A priority Critical patent/JP7218547B2/ja
Priority to US16/392,690 priority patent/US11087767B2/en
Publication of JP2020085948A publication Critical patent/JP2020085948A/ja
Application granted granted Critical
Publication of JP7218547B2 publication Critical patent/JP7218547B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、音声入力装置及び音声出力装置を備え、発言の音声を記録し、再生することが可能な発言記録装置であって、前記音声入力装置によって発言の音声を音声データとして取得し、取得した音声データを、予め話題データベースに登録された複数の話題中、話題指示手段によって指示された話題及び音声データから識別される話者ごとに音声データベースに登録する音声取得部と、前記音声データベースに登録された音声データに対して音声認識を行ってテキスト情報を取得する音声認識部と、該音声認識部によって得られたテキスト情報に対して形態素解析を行い、得られた単語から抽出したキーワードを、前記音声データベースに音声とともに登録した話題及び話者とともにキーワードデータベースに登録する形態素解析部と、前記キーワードを、話題及び話者に関連づけたマトリクス中に表示する表示生成部と、を備えたことが開示されている。
特許文献2には、会議等における発言についての記録を作成するとともに、円滑な議事進行を支援するための発言管理システム、発言管理方法及び発言管理プログラムを提供することを課題とし、会議支援サーバーの制御部は、音声を取得し、音声認識処理を実行し、そして、発言管理情報記憶部に、認識結果を記録し、次に、制御部は、発言管理情報記憶部を用いて、キーワード抽出処理を実行し、キーワードに基づいて実行される会議進行管理処理において、議事進行があったと判定した場合、制御部は、議事項目の消込処理を実行し、また、キーワードに基づいて実行される説明表示管理処理においては、制御部は、参考情報を検索し、クライアント端末において表示候補を出力することが開示されている。
特許文献3には、複数の話者の音声を収録するシステムにおいて、話者ごとに設けられたマイクロフォンと、前記マイクロフォンから各々2チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して音声処理を行い、チャンネルごとにミキシングする音声処理部と、前記音声処理部により音声処理を施され、ミキシングされた音声信号を解析し、発話区間ごとに音声信号を収録した前記マイクロフォンを特定する解析部とを備え、前記音声処理部は、所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の極性を反転する第1の処理と、所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第2の処理と、所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方を遅延させる音声処理を行う第3の処理の、少なくともいずれか一つを前記音声処理として行い、前記解析部は、ミキシングされた2つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第1の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、ミキシングされた2つのチャンネルの前記音声信号の一方の信号パワーを、前記第2の処理に対応する割合で逆方向に変化させ、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第2の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、ミキシングされた2つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第3の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定することが開示されている。
特許第5257330号公報 特開2012-208630号公報 特許第4082611号公報
複数の組織が研究開発等において協業を行う場合、その協業によってデータが生成される。成果となるデータは、それぞれの組織で所有するように契約されることがある。
しかし、成果となるデータが会話の音声情報である場合であって話者から組織を特定できない場合、音声情報の全てを記憶し、管理者が組織毎に区別する必要がある。
本発明は、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。なお、以下の「請求項」とあるのは、出願当初の請求項である。
請求項1の発明は、音声情報を受け付ける受付手段と、前記音声情報から話者を特定する第1の特定手段と、前記話者が属している組織を特定する第2の特定手段と、前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段を有する情報処理装置である。
請求項2の発明は、前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付ける、請求項1に記載の情報処理装置である。
請求項3の発明は、前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、請求項2に記載の情報処理装置である。
請求項4の発明は、前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、請求項1に記載の情報処理装置である。
請求項5の発明は、前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、請求項4に記載の情報処理装置である。
請求項6の発明は、前記第1の特定手段は、前記組織毎に用意されており、前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、請求項1に記載の情報処理装置である。
請求項7の発明は、前記音声情報を認識する認識手段を、前記組織毎に用意し、前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、請求項6に記載の情報処理装置である。
請求項8の発明は、前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、請求項1から7のいずれか1項に記載の情報処理装置である。
請求項9の発明は、コンピュータを、音声情報を受け付ける受付手段と、前記音声情報から話者を特定する第1の特定手段と、前記話者が属している組織を特定する第2の特定手段と、前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる。
請求項2の情報処理装置によれば、異なる組織に属する複数の話者による音声情報を対象とすることができる。
請求項3の情報処理装置によれば、複数の組織による音声認識についての共同作業における会話を対象とすることができる。
請求項4の情報処理装置によれば、話者の組織がアクセス可能な装置が、音声情報に関する情報を取得することができる。
請求項5の情報処理装置によれば、話者の組織が複数ある場合は、その複数の組織がアクセス可能な装置が、音声情報に関する情報を取得することができる。
請求項6の情報処理装置によれば、組織が特定された後は、その組織に対応する話者特定手段が用いられる。
請求項7の情報処理装置によれば、組織が特定された後は、その組織に対応する音声認識手段が用いられる。
請求項8の情報処理装置によれば、音声情報、その音声情報の認識結果、その音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせを出力することができる。
請求項9の情報処理プログラムによれば、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態を利用したシステム構成例を示す説明図である。 第1の実施の形態による処理例を示すフローチャートである。 話者-会社リストのデータ構造例を示す説明図である。 会議話者リストのデータ構造例を示す説明図である。 出力先リストのデータ構造例を示す説明図である。 X社用出力情報のデータ構造例を示す説明図である。 第1の実施の形態による処理例を示すフローチャートである。 第1の実施の形態による処理例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第2の実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、図1の例に示すように、音声受付モジュール105、一時記憶モジュール110、音声処理モジュール115、話者・組織対応記憶モジュール135、組織特定モジュール140、出力モジュール145を有している。
情報処理装置100は、異なる組織に属している複数人の話者の音声情報に関する情報を、その各組織の出力先に出力する機能を有している。例えば、他社との協業における成果の出力制御の処理を行う。
音声受付モジュール105は、一時記憶モジュール110と接続されている。音声受付モジュール105は、話者の音声情報を受け付ける。例えば、マイク自体であってもよいし、マイクから音声情報を受け取ってもよいし、音声情報を記録した記録媒体から音声情報を読み出すようにしてもよい。
また、音声受付モジュール105は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付けるようにしてもよい。
さらに詳細には、音声受付モジュール105は、第1の組織と第2の組織による音声認識についての共同作業における会話を受け付けるようにしてもよい。
ここで「共同作業」として、協業、コラボレーション、協調作業、共同研究等を含む。
一時記憶モジュール110は、音声受付モジュール105、音声処理モジュール115と接続されている。一時記憶モジュール110は、音声受付モジュール105が受け付けた音声情報を記憶する。また、音声処理モジュール115(話者特定モジュール120、音声認識モジュール125、音声AI機械学習モジュール130)の処理結果を記憶する。そして、出力モジュール145が、それらの情報を出力した後に、出力した情報を削除する。
音声処理モジュール115は、話者特定モジュール120、音声認識モジュール125、音声AI機械学習モジュール130を有しており、一時記憶モジュール110、組織特定モジュール140と接続されている。音声処理モジュール115は、音声情報に関する処理を行う。
話者特定モジュール120は、音声受付モジュール105が受け付けた音声情報から話者(その音声情報の音声を発生した者)を特定する。既存の技術(例えば、話者照合、話者認証、話者識別、話者認識等)を用いればよい。例えば、予め話者の音声をテンプレート(例えば、声紋)として記憶しておき、音声受付モジュール105が受け付けた音声情報と照合すればよい。
音声認識モジュール125は、音声受付モジュール105が受け付けた音声情報を認識する。既存の技術を用いればよい。具体的には、音声情報から文字情報(テキスト)に変換する。
音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報を用いて、機械学習を行う。例えば、音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報と話者特定モジュール120の処理結果を用いて、話者特定を行う機械学習を行うようにしてもよい。また、音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報と音声認識モジュール125の処理結果を用いて、音声認識を行う機械学習を行うようにしてもよい。
なお、話者特定モジュール120又は音声認識モジュール125は、音声AI機械学習モジュール130によって機械学習されたAIデータ(モデル)を用いた人工知能であってもよい。
話者・組織対応記憶モジュール135は、組織特定モジュール140と接続されている。話者・組織対応記憶モジュール135は、話者と組織とが対応づけられているテーブル等(具体的には、図4の例で示す話者-会社リスト400等)、組織と出力先とが対応づけられているテーブル等(具体的には、図6の例で示す出力先リスト600等)が記憶されている。
組織特定モジュール140は、音声処理モジュール115、話者・組織対応記憶モジュール135、出力モジュール145と接続されている。組織特定モジュール140は、話者特定モジュール120によって特定された話者が属している組織を特定する。例えば、話者・組織対応記憶モジュール135内の話者と組織とが対応づけられているテーブル等を用いて、話者から組織を特定すればよい。
出力モジュール145は、組織特定モジュール140と接続されている。出力モジュール145は、組織特定モジュール140によって特定された組織に応じた出力先に、音声情報に関する情報を出力する。
ここで「組織に応じた出力先」として、その組織がアクセス権を有している記憶手段が該当する。例えば、その組織が有しているサーバーであってもよいし、ストレージサービスを行っているクラウド上でその組織がアクセス可能な領域であってもよい。
また「音声情報に関する情報」として、音声受付モジュール105が受け付けた音声情報、その音声情報の認識結果(音声認識モジュール125による認識結果)、その音声情報を用いた機械学習結果(音声AI機械学習モジュール130による学習結果であるAIデータ)のいずれか1つ又はこれらの組み合わせである。
また、出力モジュール145は、組織特定モジュール140によって特定された組織がアクセス可能な装置に、音声情報に関する情報を出力するようにしてもよい。
さらに、出力モジュール145は、組織特定モジュール140によって特定された組織が複数ある場合は、その複数の組織がアクセス可能な装置に、音声情報に関する情報を出力するようにしてもよい。
ここで「組織特定モジュール140によって特定された組織が複数ある場合」として、異なる組織に属している話者がいる場合が該当する。より具体的には、それぞれ異なる話者が異なる組織である場合、同じ組織に属している話者が複数人いるが、少なくとも他の組織に属している話者もいる場合等が該当する。
なお、一人の話者が複数の組織に属している場合は、(1)その話者が属している複数の組織がアクセス可能な装置、(2)いずれか1つの組織がアクセス可能な装置(予め定められた組織としてもよいし、管理者、話者等によって選択された組織であってもよい)、(3)共同研究又は共同開発をしている組織がアクセス可能な装置、のいずれかである。
図2は、本実施の形態を利用したシステム構成例を示す説明図である。
会議室200内の情報処理装置100、A社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cは、通信回線290を介してそれぞれ接続されている。
会議室200内には、情報処理装置100、マイク220が設置されており、A社参加者群212、B社参加者群214、C社参加者群216がいる。A社参加者群212には、A社参加者201、A社参加者202が含まれる。B社参加者群214には、B社参加者203が含まれる。C社参加者群216には、C社参加者204、C社参加者205が含まれる。A社参加者201等の参加者は、それぞれが話者となり得る。例えば、A社参加者201等は、それぞれの組織(A社等)に属している社員等(研究者、被験者等)である。なお、ここで「組織に属している者」には、雇用関係にある者だけでなく、その組織から依頼された者(パート、アルバイト、派遣社員、契約社員等)であってもよい。
例えば、他社と協業している時に生成されるデータを、その会社毎に分割管理したいという要望がある。
他社と協業して、会議における音声認識の実験を行っている場合を想定する。この実験では、以下のアウトプットが生成されるが、実験の条件によって会社毎に分割管理したいことがある。
アウトプット例
(1)会議での発話の音声データ
(2)音声データを音声認識して得られるテキストデータ
(3)音声認識の実験によって得られる学習済みのAIデータ
実用に耐えるかを試すために、本物の会議で実験しているため、会議の中身に関わるデータは他社に出したくないということが生じる。本実施の形態を用いない場合(いわゆる従来技術)では、音声認識処理で用いる又は発生する上記(1)(2)(3)のデータを都度クリーンアップして実験を始めて、終了後に管理者がそれらのデータを会社毎に別途保管することが行われている。
このため、a)実験データの管理が別途必要で煩雑であり、b)前記AIデータが実験毎にクリアされるので、学習が進まないことになる。
そこで、情報処理装置100は、A社参加者群212による音声情報に関する情報はA社音声管理装置250Aに格納し、B社参加者群214による音声情報に関する情報はB社音声管理装置250Bに格納し、C社参加者群216による音声情報に関する情報はC社音声管理装置250Cに格納することを行う。
例えば、情報処理装置100は、以下のような処理を行う。
最初は1社のみの参加の状態である。
次の話者が、同じ会社であれば、そのまま出力先を変更しない。
次の話者が、別の会社であれば、認識に使った音声ファイルと、認識結果、学習済みのAIデータを破棄して(一時記憶モジュール110から削除して)、別の出力先に切り替える。
又は、事前処理として、第2の実施の形態に示すように、音声処理モジュール1115を会社毎に設けて、その会社を特定した後は音声処理モジュール1115を呼び分けるようにしてもよい。この場合、各音声処理モジュール1115内の話者特定モジュール1120に処理を行わせることになるが、話者を特定できなかった音声処理モジュール1115内の話者特定モジュール1120の処理結果は破棄する。
以降、新しい会社の参加者が増えると、切り替えた音声処理モジュール1115を使う。
図3は、第1の実施の形態による処理例を示すフローチャートである。
ステップS302では、話者特定モジュール120は、話者を特定する。例えば、話者-会社リスト400を用いる。図4は、話者-会社リスト400のデータ構造例を示す説明図である。話者-会社リスト400は、ユーザーID欄410、話者欄420、会社欄430、話者情報欄440を有している。ユーザーID欄410は、本実施の形態において、話者となり得るユーザーを一意に識別するための情報(ユーザーID:IDentification)を記憶している。話者欄420は、そのユーザーの名称を記憶している。会社欄430は、そのユーザーが属している会社を記憶している。話者情報欄440は、そのユーザーであると特定するための話者情報(例えば、声紋等)を記憶している。話者を特定するのに、話者情報欄440内のデータを用いる。
例えば、ユーザーID:1は、話者「山田」、会社「A社」、話者情報「声紋1」であることを示しており、ユーザーID:2は、話者「田中」、会社「A社」、話者情報「声紋2」であることを示しており、ユーザーID:3は、話者「大川」、会社「B社」、話者情報「声紋3」であることを示している。
ステップS304では、話者特定モジュール120は、その話者を会議話者リスト500に追加する。図5は、会議話者リスト500のデータ構造例を示す説明図である。会議話者リスト500は、No欄510、日時欄520、ユーザーID欄530、会社欄540を有している。No欄510は、No(具体的には、話者となった順番)を記憶している。日時欄520は、話者が発話した日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。ユーザーID欄530は、ユーザーIDを記憶している。会社欄540は、そのユーザーが属している会社を記憶している。
例えば、No:1は、日時「発話時刻」、ユーザーID「1」、会社「A社」であることを示しており、No:2は、日時「発話時刻」、ユーザーID「2」、会社「B社」であることを示しており、No:3は、日時「発話時刻」、ユーザーID「3」、会社「C社」であることを示している。
ステップS306では、組織特定モジュール140は、出力先を判定する。例えば、出力先リスト600を用いればよい。図6は、出力先リスト600のデータ構造例を示す説明図である。出力先リスト600は、No欄610、会社名欄620、パス欄630を有している。No欄610は、Noを記憶している。会社名欄620は、会社名を記憶している。パス欄630は、その会社の出力先であるパスを記憶している。この例では、フォルダ毎に会社の出力先が設定されている。
例えば、No:1は、会社名「A」、そのA社の出力先であるパスは「C:¥A」であることを示しており、No:2は、会社名「AB」、そのAB社の出力先であるパスは「C:¥AB」であることを示している。
ステップS308では、組織特定モジュール140は、出力先を変更する。
ステップS310では、出力モジュール145は、各会社に音声関係データを出力する。例えば、X社用出力情報700を出力する。図7は、X社用出力情報700のデータ構造例を示す説明図である。
X社用出力情報700は、音声情報欄710、認識結果欄720、AI情報欄730を有している。音声情報欄710は、音声情報を記憶している。認識結果欄720は、その音声情報の認識結果を記憶している。AI情報欄730は、その音声情報(さらに、認識結果)を用いたAI用の機械学習結果の情報(例えば、機械学習結果であるモデルのファイルの記憶場所(URL)等)を記憶している。
ステップS312では、出力モジュール145は、話者を特定した音声関係データを削除する。具体的には、話者・組織対応記憶モジュール135内のX社用出力情報700を削除する。
図8は、第1の実施の形態による処理例を示すフローチャートである。具体的には、新規の話者が出現した場合の処理例を示すものである。
ステップS802では、話者-会社リスト400に新規の話者を追加する。
ステップS804では、出力先リスト600に、その新規の話者の会社名があるか否かを判断し、ある場合はステップS814へ進み、それ以外の場合はステップS806へ進む。
ステップS806では、出力先リスト600に会社名を追加する。
ステップS808では、パス名を生成する。
ステップS810では、そのパス名のフォルダを作成する。
ステップS812では、会社毎にアクセス権を付与する。
ステップS814では、その会社名のパスを使用する。ここでのパスは、ステップS804でYesの場合は既にある会社の出力先であり、ステップS804でNoの場合は新しく生成された出力先である。
図9は、第1の実施の形態による処理例を示す説明図である。
情報処理装置100は、A社参加者201が発話している間の音声情報、その音声情報の認識結果、その音声情報を用いたAIデータ(以下、音声情報等)をA社音声管理装置250Aに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、B社参加者203が発話している間の音声情報等をB社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、C社参加者204が発話している間の音声情報等をC社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、A社参加者201とB社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
図10は、第1の実施の形態による処理例を示す説明図である。また、A社、B社、C社間で、音声情報等を共有することが契約されている場合は、以下のようにしてもよい。つまり、既に特定された会社(例えば、A社)と新たに特定された会社(例えば、B社)で、音声情報等を共有することが契約されているか否かを判断し、その契約がある場合は、その複数の会社(例えば、A社とB社)の出力先に出力するようにしてもよい。「契約されているか否かの判断」として、具体的には、複数会社間(2社間、3社間等)の契約があるか否かを反映したフラグ(契約データ)を管理しておき、出力先を判断する際に、そのフラグが立っている場合(契約があることを示す)、その複数社を出力先として音声情報に関する情報を出力し、フラグが立っていない場合(契約がないことを示す)、発話者が属している会社の出力先に音声情報に関する情報を出力する。
例えば、A社とB社とC社の3社間で、音声情報等を共有することの契約が結ばれている場合は、図10に示すようになる。
情報処理装置100は、A社参加者201が発話している間の音声情報等をA社音声管理装置250Aに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、B社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、C社参加者204が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、A社参加者201とB社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
<第2の実施の形態>
図11は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。
第2の実施の形態は、組織毎に音声処理モジュール1115を用意したものである。つまり、対象となる組織の数だけ音声処理モジュール1115を、情報処理装置1100内に構築している。音声処理モジュール1115は、各組織が開発したものであってもよいし、同じ音声処理モジュール1115を複製したものであってもよい。なお、同じ音声処理モジュール1115を複製した場合であっても、話者特定モジュール1120では、その組織に属している話者のデータ(いわゆる辞書データ)を個別に用意しており、音声AI機械学習モジュール1130では、機械学習によって異なるAIデータが生成されることになる。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
情報処理装置1100は、音声受付モジュール105、一時記憶モジュール110、音声処理モジュール1115A、音声処理モジュール1115B、・・・、組織特定モジュール1140、出力モジュール145を有している。
音声受付モジュール105は、一時記憶モジュール110と接続されている。
一時記憶モジュール110は、音声受付モジュール105、音声処理モジュール1115A、音声処理モジュール1115Bと接続されている。
音声処理モジュール1115Aは、組織A用に用意したものであって、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aを有しており、一時記憶モジュール110、組織特定モジュール1140と接続されている。音声処理モジュール1115Aは、音声処理モジュール115と同等の機能を有しており、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aも、それぞれ話者特定モジュール120、音声認識モジュール125、音声AI機械学習モジュール130と同等の機能を有している。ただし、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aは、組織A用に調整(チューニング)されていてもよい。ここでの調整とは、組織Aに属している話者の特定等の処理の正答率を高めるようにパラメータ、アルゴリズム等の修正が行われていることをいう。
音声処理モジュール1115Bは、組織B用に用意したものであって、音声処理モジュール1115Aと同じモジュールを有している。ただし、音声処理モジュール1115B内の話者特定モジュール1120、音声認識モジュール1125、音声AI機械学習モジュール1130は、組織B用に調整されていてもよい。
組織特定モジュール1140によって、組織が特定された後は、その組織に対応する音声処理モジュール1115(話者特定モジュール1120、音声認識モジュール1125、音声AI機械学習モジュール1130)を用いる。つまり、組織特定モジュール1140によって、組織が特定された後は、その組織に対応する話者特定モジュール1120を用いる。組織特定モジュール1140によって、組織が特定された後は、その組織に対応する音声認識モジュール1125を用いる。組織特定モジュール1140によって、組織が特定された後は、その組織に対応する音声AI機械学習モジュール1130を用いる。
組織特定モジュール1140は、音声処理モジュール1115A、音声処理モジュール1115B、出力モジュール145と接続されている。組織特定モジュール1140は、組織特定モジュール140と同等の機能を有している。ただし、いずれの話者特定モジュール1120によって話者が特定されたかによって、組織を特定する。つまり、話者を特定した話者特定モジュール1120(音声処理モジュール1115)に対応する組織を、出力先とするものである。
出力モジュール145は、組織特定モジュール1140と接続されている。
図12は、第2の実施の形態による処理例を示すフローチャートである。
ステップS1202では、各社の話者特定モジュール1120で話者を特定する。具体的には、音声情報を全ての音声処理モジュール1115内の話者特定モジュール1120で処理する。話者を特定できる話者特定モジュール1120(話者が属している会社に割り当てられている音声処理モジュール1115内の話者特定モジュール1120)と、話者を特定できない話者特定モジュール1120(話者が属していない会社に割り当てられている音声処理モジュール1115内の話者特定モジュール1120)がある。
ステップS1204では、話者を特定できた話者特定モジュール1120で出力先を判定する。つまり、話者を特定できた話者特定モジュール1120(音声処理モジュール1115)に割り当てられた会社が出力先となる。
ステップS1206では、予め定められた時間は経過したか否かを判断し、経過した場合はステップS1208へ進み、それ以外の場合はステップS1202へ戻る。例えば、単なる返事のみである場合は音声処理モジュール1115による処理は不要であって、話者としての期間が予め定められた時間以上である場合に音声処理モジュール1115による処理を行わせるようにしている。
ステップS1208では、音声処理を行わせる音声処理モジュール1115を特定する。この後は、話者の音声処理(音声認識、機械学習等)は、その音声処理モジュール1115に行わせる。
ステップS1210では、音声処理モジュール1115に対応する会社に音声関係データを出力する。
ステップS1212では、話者を特定した音声関係データを削除する。もちろんのことながら、ステップS1202で、他の話者特定モジュール1120(出力先とはならなかった会社に割り当てられた音声処理モジュール1115内の話者特定モジュール1120)が用いた音声関係データも削除する。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図13に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1301を用い、記憶装置としてRAM1302、ROM1303、HDD1304を用いている。HDD1304として、例えば、HDD(Hard Disk Drive)、フラッシュ・メモリであるSSD(Solid State Drive)等を用いてもよい。音声受付モジュール105、音声処理モジュール115、話者特定モジュール120、音声認識モジュール125、音声AI機械学習モジュール130、組織特定モジュール140、出力モジュール145、音声処理モジュール1115、話者特定モジュール1120、音声認識モジュール1125、音声AI機械学習モジュール1130、組織特定モジュール1140等のプログラムを実行するCPU1301と、そのプログラムやデータを記憶するRAM1302と、本コンピュータを起動するためのプログラム等が格納されているROM1303と、一時記憶モジュール110、話者・組織対応記憶モジュール135等としての機能を有する補助記憶装置であるHDD1304と、キーボード、マウス、タッチスクリーン、マイク、カメラ(視線検知カメラ等を含む)等に対する利用者の操作(動作、音声、視線等を含む)に基づいてデータを受け付ける受付装置1306と、CRT、液晶ディスプレイ、スピーカー等の出力装置1305と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1307、そして、それらをつないでデータのやりとりをするためのバス1308により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図13に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図13に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)や再構成可能な集積回路(field-programmable gate array:FPGA)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図13に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
前述の実施の形態において、話者を特定できない場合は、話者登録用のユーザーインタフェースを提示し、話者名(又は組織名)を選択させるようにしてもよい。また、特定できない話者用の出力先を予め用意しておいてもよい。その出力先は、管理者のみがアクセスできるものである。そして、話者を特定できない場合、その話者の音声情報に関する情報を、その出力先に出力する。なお、第2の実施の形態の場合は、話者を特定できない場合は、予め定められた音声処理モジュール1115が音声処理を行うようにしておけばよい。そして、その出力先の音声情報に関する情報は、管理者が適切な組織に振り分けるようにしておけばよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
105…音声受付モジュール
110…一時記憶モジュール
115…音声処理モジュール
120…話者特定モジュール
125…音声認識モジュール
130…音声AI機械学習モジュール
135…話者・組織対応記憶モジュール
140…組織特定モジュール
145…出力モジュール
220…マイク
250…音声管理装置
290…通信回線
1100…情報処理装置
1115…音声処理モジュール
1120…話者特定モジュール
1125…音声認識モジュール
1130…音声AI機械学習モジュール
1140…組織特定モジュール

Claims (23)

  1. 音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    を有し、
    前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付け、
    前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
    情報処理装置。
  2. 前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    請求項1に記載の情報処理装置。
  3. 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    請求項に記載の情報処理装置。
  4. 前記第1の特定手段は、前記組織毎に用意されており、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
    請求項1に記載の情報処理装置。
  5. 前記音声情報を認識する認識手段を、前記組織毎に用意し、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
    請求項に記載の情報処理装置。
  6. 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
    請求項1からのいずれか1項に記載の情報処理装置。
  7. 音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    を有し、
    前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    情報処理装置。
  8. 前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付ける、
    請求項に記載の情報処理装置。
  9. 前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
    請求項に記載の情報処理装置。
  10. 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    請求項に記載の情報処理装置。
  11. 前記第1の特定手段は、前記組織毎に用意されており、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
    請求項に記載の情報処理装置。
  12. 前記音声情報を認識する認識手段を、前記組織毎に用意し、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
    請求項11に記載の情報処理装置。
  13. 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
    請求項から12のいずれか1項に記載の情報処理装置。
  14. 音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    を有し、
    前記第1の特定手段は、前記組織毎に用意されており、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
    情報処理装置。
  15. 前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付ける、
    請求項14に記載の情報処理装置。
  16. 前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
    請求項15に記載の情報処理装置。
  17. 前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    請求項14に記載の情報処理装置。
  18. 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    請求項17に記載の情報処理装置。
  19. 前記音声情報を認識する認識手段を、前記組織毎に用意し、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
    請求項14に記載の情報処理装置。
  20. 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
    請求項14から19のいずれか1項に記載の情報処理装置。
  21. コンピュータを、
    音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    として機能させ
    前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付け、
    前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
    情報処理プログラム。
  22. コンピュータを、
    音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    として機能させ
    前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
    情報処理プログラム。
  23. コンピュータを、
    音声情報を受け付ける受付手段と、
    前記音声情報から話者を特定する第1の特定手段と、
    前記話者が属している組織を特定する第2の特定手段と、
    前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
    として機能させ
    前記第1の特定手段は、前記組織毎に用意されており、
    前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
    情報処理プログラム。
JP2018215167A 2018-11-16 2018-11-16 情報処理装置及び情報処理プログラム Active JP7218547B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018215167A JP7218547B2 (ja) 2018-11-16 2018-11-16 情報処理装置及び情報処理プログラム
US16/392,690 US11087767B2 (en) 2018-11-16 2019-04-24 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018215167A JP7218547B2 (ja) 2018-11-16 2018-11-16 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2020085948A JP2020085948A (ja) 2020-06-04
JP7218547B2 true JP7218547B2 (ja) 2023-02-07

Family

ID=70726712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018215167A Active JP7218547B2 (ja) 2018-11-16 2018-11-16 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US11087767B2 (ja)
JP (1) JP7218547B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001045454A (ja) 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2003199086A (ja) 2001-12-26 2003-07-11 Matsushita Electric Ind Co Ltd 撮影情報伝送システム
JP2003241785A (ja) 2002-02-21 2003-08-29 Toshiba Tec Corp 個人認証機能を有する通話装置及び通話システム
JP2014167517A (ja) 2013-02-28 2014-09-11 Nippon Telegraph & Telephone East Corp 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
JP2015195440A (ja) 2014-03-31 2015-11-05 株式会社Jvcケンウッド 端末装置、管理装置、プログラム

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
KR100600522B1 (ko) * 2003-12-16 2006-07-13 에스케이 주식회사 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법
JP4082611B2 (ja) 2004-05-26 2008-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声収録システム、音声処理方法およびプログラム
US8498865B1 (en) * 2004-11-30 2013-07-30 Vocera Communications, Inc. Speech recognition system and method using group call statistics
US7613610B1 (en) * 2005-03-14 2009-11-03 Escription, Inc. Transcription data extraction
JP5257330B2 (ja) 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
JP2012208630A (ja) 2011-03-29 2012-10-25 Mizuho Information & Research Institute Inc 発言管理システム、発言管理方法及び発言管理プログラム
US8934652B2 (en) * 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US20130144619A1 (en) * 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing
JP5743976B2 (ja) * 2012-08-10 2015-07-01 株式会社東芝 情報処理装置、プログラム、及び情報処理方法
US10134400B2 (en) * 2012-11-21 2018-11-20 Verint Systems Ltd. Diarization using acoustic labeling
JP6522503B2 (ja) * 2013-08-29 2019-05-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法、表示制御方法及び購入決済方法
US9904851B2 (en) * 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
WO2018053537A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
US10249295B2 (en) * 2017-01-10 2019-04-02 International Business Machines Corporation Method of proactive object transferring management
US10796697B2 (en) * 2017-01-31 2020-10-06 Microsoft Technology Licensing, Llc Associating meetings with projects using characteristic keywords
US11417343B2 (en) * 2017-05-24 2022-08-16 Zoominfo Converse Llc Automatic speaker identification in calls using multiple speaker-identification parameters
EP3682444A1 (en) * 2017-09-11 2020-07-22 Telefonaktiebolaget LM Ericsson (PUBL) Voice-controlled management of user profiles
WO2019130817A1 (ja) * 2017-12-25 2019-07-04 京セラドキュメントソリューションズ株式会社 情報処理装置及び発話解析方法
US10467335B2 (en) * 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US11488602B2 (en) * 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10841115B2 (en) * 2018-11-07 2020-11-17 Theta Lake, Inc. Systems and methods for identifying participants in multimedia data streams
US11017778B1 (en) * 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001045454A (ja) 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2003199086A (ja) 2001-12-26 2003-07-11 Matsushita Electric Ind Co Ltd 撮影情報伝送システム
JP2003241785A (ja) 2002-02-21 2003-08-29 Toshiba Tec Corp 個人認証機能を有する通話装置及び通話システム
JP2014167517A (ja) 2013-02-28 2014-09-11 Nippon Telegraph & Telephone East Corp 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム
JP2015195440A (ja) 2014-03-31 2015-11-05 株式会社Jvcケンウッド 端末装置、管理装置、プログラム

Also Published As

Publication number Publication date
US20200160868A1 (en) 2020-05-21
JP2020085948A (ja) 2020-06-04
US11087767B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
US10204158B2 (en) Audio summarization of meetings driven by user participation
Quinn et al. Online newsgathering: Research and reporting for journalism
JP2017037588A (ja) 情報処理装置及び情報処理プログラム
US20110150198A1 (en) System and method for merging voice calls based on topics
US10785270B2 (en) Identifying or creating social network groups of interest to attendees based on cognitive analysis of voice communications
JP2016057740A (ja) 情報処理装置及び情報処理プログラム
US10367944B2 (en) Apparatus, system, and method of conference assistance
US20170046411A1 (en) Generating structured meeting reports through semantic correlation of unstructured voice and text data
CN111539001B (zh) 一种基于企业用户的简化pdf文档电子签名的方法及系统
US20200220741A1 (en) System and Method for Modeling an Asynchronous Communication Channel
US20190197103A1 (en) Asynchronous speech act detection in text-based messages
US20210306384A1 (en) Event registration system, user terminal, and storage medium
US10397166B2 (en) Saving communication content to a social network environment
CN116368785A (zh) 智能查询缓冲机制
JP7218547B2 (ja) 情報処理装置及び情報処理プログラム
JP2008011272A (ja) 会議システム及び制御方法、並びにプログラム及び記憶媒体
US11689694B2 (en) Information processing apparatus and computer readable medium
US11165737B2 (en) Information processing apparatus for conversion between abbreviated name and formal name
Stephen et al. Electronic Evidence
US10992610B2 (en) Systems and methods for automating post communications activity
JP2022047727A (ja) 情報処理システム、情報処理方法及びプログラム
US11526669B1 (en) Keyword analysis in live group breakout sessions
US11741299B2 (en) Smart lens artifact capture and review reception
US20170083849A1 (en) Generating a database of skills
US11838139B1 (en) Conferencing platform integration with assent tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230109

R150 Certificate of patent or registration of utility model

Ref document number: 7218547

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150