JP7218547B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP7218547B2 JP7218547B2 JP2018215167A JP2018215167A JP7218547B2 JP 7218547 B2 JP7218547 B2 JP 7218547B2 JP 2018215167 A JP2018215167 A JP 2018215167A JP 2018215167 A JP2018215167 A JP 2018215167A JP 7218547 B2 JP7218547 B2 JP 7218547B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- organization
- speaker
- voice
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/155—Conference systems involving storage of or access to video conference sessions
Description
しかし、成果となるデータが会話の音声情報である場合であって話者から組織を特定できない場合、音声情報の全てを記憶し、管理者が組織毎に区別する必要がある。
本発明は、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、音声情報を受け付ける受付手段と、前記音声情報から話者を特定する第1の特定手段と、前記話者が属している組織を特定する第2の特定手段と、前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段を有する情報処理装置である。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
情報処理装置100は、異なる組織に属している複数人の話者の音声情報に関する情報を、その各組織の出力先に出力する機能を有している。例えば、他社との協業における成果の出力制御の処理を行う。
また、音声受付モジュール105は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付けるようにしてもよい。
さらに詳細には、音声受付モジュール105は、第1の組織と第2の組織による音声認識についての共同作業における会話を受け付けるようにしてもよい。
ここで「共同作業」として、協業、コラボレーション、協調作業、共同研究等を含む。
話者特定モジュール120は、音声受付モジュール105が受け付けた音声情報から話者(その音声情報の音声を発生した者)を特定する。既存の技術(例えば、話者照合、話者認証、話者識別、話者認識等)を用いればよい。例えば、予め話者の音声をテンプレート(例えば、声紋)として記憶しておき、音声受付モジュール105が受け付けた音声情報と照合すればよい。
音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報を用いて、機械学習を行う。例えば、音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報と話者特定モジュール120の処理結果を用いて、話者特定を行う機械学習を行うようにしてもよい。また、音声AI機械学習モジュール130は、音声受付モジュール105が受け付けた音声情報と音声認識モジュール125の処理結果を用いて、音声認識を行う機械学習を行うようにしてもよい。
なお、話者特定モジュール120又は音声認識モジュール125は、音声AI機械学習モジュール130によって機械学習されたAIデータ(モデル)を用いた人工知能であってもよい。
組織特定モジュール140は、音声処理モジュール115、話者・組織対応記憶モジュール135、出力モジュール145と接続されている。組織特定モジュール140は、話者特定モジュール120によって特定された話者が属している組織を特定する。例えば、話者・組織対応記憶モジュール135内の話者と組織とが対応づけられているテーブル等を用いて、話者から組織を特定すればよい。
ここで「組織に応じた出力先」として、その組織がアクセス権を有している記憶手段が該当する。例えば、その組織が有しているサーバーであってもよいし、ストレージサービスを行っているクラウド上でその組織がアクセス可能な領域であってもよい。
また「音声情報に関する情報」として、音声受付モジュール105が受け付けた音声情報、その音声情報の認識結果(音声認識モジュール125による認識結果)、その音声情報を用いた機械学習結果(音声AI機械学習モジュール130による学習結果であるAIデータ)のいずれか1つ又はこれらの組み合わせである。
また、出力モジュール145は、組織特定モジュール140によって特定された組織がアクセス可能な装置に、音声情報に関する情報を出力するようにしてもよい。
ここで「組織特定モジュール140によって特定された組織が複数ある場合」として、異なる組織に属している話者がいる場合が該当する。より具体的には、それぞれ異なる話者が異なる組織である場合、同じ組織に属している話者が複数人いるが、少なくとも他の組織に属している話者もいる場合等が該当する。
なお、一人の話者が複数の組織に属している場合は、(1)その話者が属している複数の組織がアクセス可能な装置、(2)いずれか1つの組織がアクセス可能な装置(予め定められた組織としてもよいし、管理者、話者等によって選択された組織であってもよい)、(3)共同研究又は共同開発をしている組織がアクセス可能な装置、のいずれかである。
会議室200内の情報処理装置100、A社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cは、通信回線290を介してそれぞれ接続されている。
会議室200内には、情報処理装置100、マイク220が設置されており、A社参加者群212、B社参加者群214、C社参加者群216がいる。A社参加者群212には、A社参加者201、A社参加者202が含まれる。B社参加者群214には、B社参加者203が含まれる。C社参加者群216には、C社参加者204、C社参加者205が含まれる。A社参加者201等の参加者は、それぞれが話者となり得る。例えば、A社参加者201等は、それぞれの組織(A社等)に属している社員等(研究者、被験者等)である。なお、ここで「組織に属している者」には、雇用関係にある者だけでなく、その組織から依頼された者(パート、アルバイト、派遣社員、契約社員等)であってもよい。
他社と協業して、会議における音声認識の実験を行っている場合を想定する。この実験では、以下のアウトプットが生成されるが、実験の条件によって会社毎に分割管理したいことがある。
アウトプット例
(1)会議での発話の音声データ
(2)音声データを音声認識して得られるテキストデータ
(3)音声認識の実験によって得られる学習済みのAIデータ
実用に耐えるかを試すために、本物の会議で実験しているため、会議の中身に関わるデータは他社に出したくないということが生じる。本実施の形態を用いない場合(いわゆる従来技術)では、音声認識処理で用いる又は発生する上記(1)(2)(3)のデータを都度クリーンアップして実験を始めて、終了後に管理者がそれらのデータを会社毎に別途保管することが行われている。
このため、a)実験データの管理が別途必要で煩雑であり、b)前記AIデータが実験毎にクリアされるので、学習が進まないことになる。
例えば、情報処理装置100は、以下のような処理を行う。
最初は1社のみの参加の状態である。
次の話者が、同じ会社であれば、そのまま出力先を変更しない。
次の話者が、別の会社であれば、認識に使った音声ファイルと、認識結果、学習済みのAIデータを破棄して(一時記憶モジュール110から削除して)、別の出力先に切り替える。
又は、事前処理として、第2の実施の形態に示すように、音声処理モジュール1115を会社毎に設けて、その会社を特定した後は音声処理モジュール1115を呼び分けるようにしてもよい。この場合、各音声処理モジュール1115内の話者特定モジュール1120に処理を行わせることになるが、話者を特定できなかった音声処理モジュール1115内の話者特定モジュール1120の処理結果は破棄する。
以降、新しい会社の参加者が増えると、切り替えた音声処理モジュール1115を使う。
ステップS302では、話者特定モジュール120は、話者を特定する。例えば、話者-会社リスト400を用いる。図4は、話者-会社リスト400のデータ構造例を示す説明図である。話者-会社リスト400は、ユーザーID欄410、話者欄420、会社欄430、話者情報欄440を有している。ユーザーID欄410は、本実施の形態において、話者となり得るユーザーを一意に識別するための情報(ユーザーID:IDentification)を記憶している。話者欄420は、そのユーザーの名称を記憶している。会社欄430は、そのユーザーが属している会社を記憶している。話者情報欄440は、そのユーザーであると特定するための話者情報(例えば、声紋等)を記憶している。話者を特定するのに、話者情報欄440内のデータを用いる。
例えば、ユーザーID:1は、話者「山田」、会社「A社」、話者情報「声紋1」であることを示しており、ユーザーID:2は、話者「田中」、会社「A社」、話者情報「声紋2」であることを示しており、ユーザーID:3は、話者「大川」、会社「B社」、話者情報「声紋3」であることを示している。
例えば、No:1は、日時「発話時刻」、ユーザーID「1」、会社「A社」であることを示しており、No:2は、日時「発話時刻」、ユーザーID「2」、会社「B社」であることを示しており、No:3は、日時「発話時刻」、ユーザーID「3」、会社「C社」であることを示している。
例えば、No:1は、会社名「A」、そのA社の出力先であるパスは「C:¥A」であることを示しており、No:2は、会社名「AB」、そのAB社の出力先であるパスは「C:¥AB」であることを示している。
ステップS310では、出力モジュール145は、各会社に音声関係データを出力する。例えば、X社用出力情報700を出力する。図7は、X社用出力情報700のデータ構造例を示す説明図である。
X社用出力情報700は、音声情報欄710、認識結果欄720、AI情報欄730を有している。音声情報欄710は、音声情報を記憶している。認識結果欄720は、その音声情報の認識結果を記憶している。AI情報欄730は、その音声情報(さらに、認識結果)を用いたAI用の機械学習結果の情報(例えば、機械学習結果であるモデルのファイルの記憶場所(URL)等)を記憶している。
ステップS312では、出力モジュール145は、話者を特定した音声関係データを削除する。具体的には、話者・組織対応記憶モジュール135内のX社用出力情報700を削除する。
ステップS802では、話者-会社リスト400に新規の話者を追加する。
ステップS804では、出力先リスト600に、その新規の話者の会社名があるか否かを判断し、ある場合はステップS814へ進み、それ以外の場合はステップS806へ進む。
ステップS808では、パス名を生成する。
ステップS810では、そのパス名のフォルダを作成する。
ステップS812では、会社毎にアクセス権を付与する。
ステップS814では、その会社名のパスを使用する。ここでのパスは、ステップS804でYesの場合は既にある会社の出力先であり、ステップS804でNoの場合は新しく生成された出力先である。
情報処理装置100は、A社参加者201が発話している間の音声情報、その音声情報の認識結果、その音声情報を用いたAIデータ(以下、音声情報等)をA社音声管理装置250Aに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、B社参加者203が発話している間の音声情報等をB社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、C社参加者204が発話している間の音声情報等をC社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、A社参加者201とB社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
情報処理装置100は、A社参加者201が発話している間の音声情報等をA社音声管理装置250Aに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、B社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250Bに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、C社参加者204が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
次に、情報処理装置100は、A社参加者201とB社参加者203が発話している間の音声情報等をA社音声管理装置250A、B社音声管理装置250B、C社音声管理装置250Cに出力する。出力後に、情報処理装置100は、その音声情報等を削除する。
図11は、第2の実施の形態の構成例についての概念的なモジュール構成図を示している。
第2の実施の形態は、組織毎に音声処理モジュール1115を用意したものである。つまり、対象となる組織の数だけ音声処理モジュール1115を、情報処理装置1100内に構築している。音声処理モジュール1115は、各組織が開発したものであってもよいし、同じ音声処理モジュール1115を複製したものであってもよい。なお、同じ音声処理モジュール1115を複製した場合であっても、話者特定モジュール1120では、その組織に属している話者のデータ(いわゆる辞書データ)を個別に用意しており、音声AI機械学習モジュール1130では、機械学習によって異なるAIデータが生成されることになる。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
音声受付モジュール105は、一時記憶モジュール110と接続されている。
一時記憶モジュール110は、音声受付モジュール105、音声処理モジュール1115A、音声処理モジュール1115Bと接続されている。
音声処理モジュール1115Aは、組織A用に用意したものであって、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aを有しており、一時記憶モジュール110、組織特定モジュール1140と接続されている。音声処理モジュール1115Aは、音声処理モジュール115と同等の機能を有しており、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aも、それぞれ話者特定モジュール120、音声認識モジュール125、音声AI機械学習モジュール130と同等の機能を有している。ただし、話者特定モジュール1120A、音声認識モジュール1125A、音声AI機械学習モジュール1130Aは、組織A用に調整(チューニング)されていてもよい。ここでの調整とは、組織Aに属している話者の特定等の処理の正答率を高めるようにパラメータ、アルゴリズム等の修正が行われていることをいう。
音声処理モジュール1115Bは、組織B用に用意したものであって、音声処理モジュール1115Aと同じモジュールを有している。ただし、音声処理モジュール1115B内の話者特定モジュール1120、音声認識モジュール1125、音声AI機械学習モジュール1130は、組織B用に調整されていてもよい。
組織特定モジュール1140は、音声処理モジュール1115A、音声処理モジュール1115B、出力モジュール145と接続されている。組織特定モジュール1140は、組織特定モジュール140と同等の機能を有している。ただし、いずれの話者特定モジュール1120によって話者が特定されたかによって、組織を特定する。つまり、話者を特定した話者特定モジュール1120(音声処理モジュール1115)に対応する組織を、出力先とするものである。
出力モジュール145は、組織特定モジュール1140と接続されている。
ステップS1202では、各社の話者特定モジュール1120で話者を特定する。具体的には、音声情報を全ての音声処理モジュール1115内の話者特定モジュール1120で処理する。話者を特定できる話者特定モジュール1120(話者が属している会社に割り当てられている音声処理モジュール1115内の話者特定モジュール1120)と、話者を特定できない話者特定モジュール1120(話者が属していない会社に割り当てられている音声処理モジュール1115内の話者特定モジュール1120)がある。
ステップS1204では、話者を特定できた話者特定モジュール1120で出力先を判定する。つまり、話者を特定できた話者特定モジュール1120(音声処理モジュール1115)に割り当てられた会社が出力先となる。
ステップS1208では、音声処理を行わせる音声処理モジュール1115を特定する。この後は、話者の音声処理(音声認識、機械学習等)は、その音声処理モジュール1115に行わせる。
ステップS1210では、音声処理モジュール1115に対応する会社に音声関係データを出力する。
ステップS1212では、話者を特定した音声関係データを削除する。もちろんのことながら、ステップS1202で、他の話者特定モジュール1120(出力先とはならなかった会社に割り当てられた音声処理モジュール1115内の話者特定モジュール1120)が用いた音声関係データも削除する。
なお、図13に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図13に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)や再構成可能な集積回路(field-programmable gate array:FPGA)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図13に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…音声受付モジュール
110…一時記憶モジュール
115…音声処理モジュール
120…話者特定モジュール
125…音声認識モジュール
130…音声AI機械学習モジュール
135…話者・組織対応記憶モジュール
140…組織特定モジュール
145…出力モジュール
220…マイク
250…音声管理装置
290…通信回線
1100…情報処理装置
1115…音声処理モジュール
1120…話者特定モジュール
1125…音声認識モジュール
1130…音声AI機械学習モジュール
1140…組織特定モジュール
Claims (23)
- 音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付け、
前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
情報処理装置。 - 前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項1に記載の情報処理装置。 - 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項2に記載の情報処理装置。 - 前記第1の特定手段は、前記組織毎に用意されており、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
請求項1に記載の情報処理装置。 - 前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項4に記載の情報処理装置。 - 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
請求項1から5のいずれか1項に記載の情報処理装置。 - 音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
情報処理装置。 - 前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付ける、
請求項7に記載の情報処理装置。 - 前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
請求項8に記載の情報処理装置。 - 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項7に記載の情報処理装置。 - 前記第1の特定手段は、前記組織毎に用意されており、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
請求項7に記載の情報処理装置。 - 前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項11に記載の情報処理装置。 - 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
請求項7から12のいずれか1項に記載の情報処理装置。 - 音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記第1の特定手段は、前記組織毎に用意されており、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
情報処理装置。 - 前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付ける、
請求項14に記載の情報処理装置。 - 前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
請求項15に記載の情報処理装置。 - 前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項14に記載の情報処理装置。 - 前記出力手段は、前記第2の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項17に記載の情報処理装置。 - 前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項14に記載の情報処理装置。 - 前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか1つ又はこれらの組み合わせである、
請求項14から19のいずれか1項に記載の情報処理装置。 - コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記受付手段は、第1の組織に属する話者による音声情報と第2の組織に属する話者による音声情報を受け付け、
前記受付手段は、前記第1の組織と前記第2の組織による音声認識についての共同作業における会話を受け付ける、
情報処理プログラム。 - コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記出力手段は、前記第2の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
情報処理プログラム。 - コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第1の特定手段と、
前記話者が属している組織を特定する第2の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記第1の特定手段は、前記組織毎に用意されており、
前記第2の特定手段によって、組織が特定された後は、該組織に対応する第1の特定手段を用いる、
情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018215167A JP7218547B2 (ja) | 2018-11-16 | 2018-11-16 | 情報処理装置及び情報処理プログラム |
US16/392,690 US11087767B2 (en) | 2018-11-16 | 2019-04-24 | Information processing apparatus and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018215167A JP7218547B2 (ja) | 2018-11-16 | 2018-11-16 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020085948A JP2020085948A (ja) | 2020-06-04 |
JP7218547B2 true JP7218547B2 (ja) | 2023-02-07 |
Family
ID=70726712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018215167A Active JP7218547B2 (ja) | 2018-11-16 | 2018-11-16 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11087767B2 (ja) |
JP (1) | JP7218547B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001045454A (ja) | 1999-08-03 | 2001-02-16 | Fuji Xerox Co Ltd | 対話情報配信システムおよび対話情報配信装置並びに記憶媒体 |
JP2003199086A (ja) | 2001-12-26 | 2003-07-11 | Matsushita Electric Ind Co Ltd | 撮影情報伝送システム |
JP2003241785A (ja) | 2002-02-21 | 2003-08-29 | Toshiba Tec Corp | 個人認証機能を有する通話装置及び通話システム |
JP2014167517A (ja) | 2013-02-28 | 2014-09-11 | Nippon Telegraph & Telephone East Corp | 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム |
JP2015195440A (ja) | 2014-03-31 | 2015-11-05 | 株式会社Jvcケンウッド | 端末装置、管理装置、プログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
KR100600522B1 (ko) * | 2003-12-16 | 2006-07-13 | 에스케이 주식회사 | 상담원과 음성 인식 엔진을 이용한 품질보장형 콜라우팅시스템 및 그 방법 |
JP4082611B2 (ja) | 2004-05-26 | 2008-04-30 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声収録システム、音声処理方法およびプログラム |
US8498865B1 (en) * | 2004-11-30 | 2013-07-30 | Vocera Communications, Inc. | Speech recognition system and method using group call statistics |
US7613610B1 (en) * | 2005-03-14 | 2009-11-03 | Escription, Inc. | Transcription data extraction |
JP5257330B2 (ja) | 2009-11-06 | 2013-08-07 | 株式会社リコー | 発言記録装置、発言記録方法、プログラム及び記録媒体 |
JP2012208630A (ja) | 2011-03-29 | 2012-10-25 | Mizuho Information & Research Institute Inc | 発言管理システム、発言管理方法及び発言管理プログラム |
US8934652B2 (en) * | 2011-12-01 | 2015-01-13 | Elwha Llc | Visual presentation of speaker-related information |
US20130144619A1 (en) * | 2011-12-01 | 2013-06-06 | Richard T. Lord | Enhanced voice conferencing |
JP5743976B2 (ja) * | 2012-08-10 | 2015-07-01 | 株式会社東芝 | 情報処理装置、プログラム、及び情報処理方法 |
US10134400B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using acoustic labeling |
JP6522503B2 (ja) * | 2013-08-29 | 2019-05-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器制御方法、表示制御方法及び購入決済方法 |
US9904851B2 (en) * | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
WO2018053537A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
US10249295B2 (en) * | 2017-01-10 | 2019-04-02 | International Business Machines Corporation | Method of proactive object transferring management |
US10796697B2 (en) * | 2017-01-31 | 2020-10-06 | Microsoft Technology Licensing, Llc | Associating meetings with projects using characteristic keywords |
US11417343B2 (en) * | 2017-05-24 | 2022-08-16 | Zoominfo Converse Llc | Automatic speaker identification in calls using multiple speaker-identification parameters |
EP3682444A1 (en) * | 2017-09-11 | 2020-07-22 | Telefonaktiebolaget LM Ericsson (PUBL) | Voice-controlled management of user profiles |
WO2019130817A1 (ja) * | 2017-12-25 | 2019-07-04 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び発話解析方法 |
US10467335B2 (en) * | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US11488602B2 (en) * | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10841115B2 (en) * | 2018-11-07 | 2020-11-17 | Theta Lake, Inc. | Systems and methods for identifying participants in multimedia data streams |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
-
2018
- 2018-11-16 JP JP2018215167A patent/JP7218547B2/ja active Active
-
2019
- 2019-04-24 US US16/392,690 patent/US11087767B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001045454A (ja) | 1999-08-03 | 2001-02-16 | Fuji Xerox Co Ltd | 対話情報配信システムおよび対話情報配信装置並びに記憶媒体 |
JP2003199086A (ja) | 2001-12-26 | 2003-07-11 | Matsushita Electric Ind Co Ltd | 撮影情報伝送システム |
JP2003241785A (ja) | 2002-02-21 | 2003-08-29 | Toshiba Tec Corp | 個人認証機能を有する通話装置及び通話システム |
JP2014167517A (ja) | 2013-02-28 | 2014-09-11 | Nippon Telegraph & Telephone East Corp | 会話提供システム、ゲーム提供システム、会話提供方法、ゲーム提供方法及びプログラム |
JP2015195440A (ja) | 2014-03-31 | 2015-11-05 | 株式会社Jvcケンウッド | 端末装置、管理装置、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200160868A1 (en) | 2020-05-21 |
JP2020085948A (ja) | 2020-06-04 |
US11087767B2 (en) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10204158B2 (en) | Audio summarization of meetings driven by user participation | |
Quinn et al. | Online newsgathering: Research and reporting for journalism | |
JP2017037588A (ja) | 情報処理装置及び情報処理プログラム | |
US20110150198A1 (en) | System and method for merging voice calls based on topics | |
US10785270B2 (en) | Identifying or creating social network groups of interest to attendees based on cognitive analysis of voice communications | |
JP2016057740A (ja) | 情報処理装置及び情報処理プログラム | |
US10367944B2 (en) | Apparatus, system, and method of conference assistance | |
US20170046411A1 (en) | Generating structured meeting reports through semantic correlation of unstructured voice and text data | |
CN111539001B (zh) | 一种基于企业用户的简化pdf文档电子签名的方法及系统 | |
US20200220741A1 (en) | System and Method for Modeling an Asynchronous Communication Channel | |
US20190197103A1 (en) | Asynchronous speech act detection in text-based messages | |
US20210306384A1 (en) | Event registration system, user terminal, and storage medium | |
US10397166B2 (en) | Saving communication content to a social network environment | |
CN116368785A (zh) | 智能查询缓冲机制 | |
JP7218547B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2008011272A (ja) | 会議システム及び制御方法、並びにプログラム及び記憶媒体 | |
US11689694B2 (en) | Information processing apparatus and computer readable medium | |
US11165737B2 (en) | Information processing apparatus for conversion between abbreviated name and formal name | |
Stephen et al. | Electronic Evidence | |
US10992610B2 (en) | Systems and methods for automating post communications activity | |
JP2022047727A (ja) | 情報処理システム、情報処理方法及びプログラム | |
US11526669B1 (en) | Keyword analysis in live group breakout sessions | |
US11741299B2 (en) | Smart lens artifact capture and review reception | |
US20170083849A1 (en) | Generating a database of skills | |
US11838139B1 (en) | Conferencing platform integration with assent tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7218547 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |