JP7218547B2

JP7218547B2 - 情報処理装置及び情報処理プログラム

Info

Publication number: JP7218547B2
Application number: JP2018215167A
Authority: JP
Inventors: 徹羽鳥
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2023-02-07
Anticipated expiration: 2038-11-16
Also published as: US20200160868A1; JP2020085948A; US11087767B2

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、音声入力装置及び音声出力装置を備え、発言の音声を記録し、再生することが可能な発言記録装置であって、前記音声入力装置によって発言の音声を音声データとして取得し、取得した音声データを、予め話題データベースに登録された複数の話題中、話題指示手段によって指示された話題及び音声データから識別される話者ごとに音声データベースに登録する音声取得部と、前記音声データベースに登録された音声データに対して音声認識を行ってテキスト情報を取得する音声認識部と、該音声認識部によって得られたテキスト情報に対して形態素解析を行い、得られた単語から抽出したキーワードを、前記音声データベースに音声とともに登録した話題及び話者とともにキーワードデータベースに登録する形態素解析部と、前記キーワードを、話題及び話者に関連づけたマトリクス中に表示する表示生成部と、を備えたことが開示されている。

特許文献２には、会議等における発言についての記録を作成するとともに、円滑な議事進行を支援するための発言管理システム、発言管理方法及び発言管理プログラムを提供することを課題とし、会議支援サーバーの制御部は、音声を取得し、音声認識処理を実行し、そして、発言管理情報記憶部に、認識結果を記録し、次に、制御部は、発言管理情報記憶部を用いて、キーワード抽出処理を実行し、キーワードに基づいて実行される会議進行管理処理において、議事進行があったと判定した場合、制御部は、議事項目の消込処理を実行し、また、キーワードに基づいて実行される説明表示管理処理においては、制御部は、参考情報を検索し、クライアント端末において表示候補を出力することが開示されている。

特許文献３には、複数の話者の音声を収録するシステムにおいて、話者ごとに設けられたマイクロフォンと、前記マイクロフォンから各々２チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して音声処理を行い、チャンネルごとにミキシングする音声処理部と、前記音声処理部により音声処理を施され、ミキシングされた音声信号を解析し、発話区間ごとに音声信号を収録した前記マイクロフォンを特定する解析部とを備え、前記音声処理部は、所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の極性を反転する第１の処理と、所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第２の処理と、所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方を遅延させる音声処理を行う第３の処理の、少なくともいずれか一つを前記音声処理として行い、前記解析部は、ミキシングされた２つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第１の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、ミキシングされた２つのチャンネルの前記音声信号の一方の信号パワーを、前記第２の処理に対応する割合で逆方向に変化させ、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第２の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、ミキシングされた２つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第３の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定することが開示されている。

特許第５２５７３３０号公報特開２０１２－２０８６３０号公報特許第４０８２６１１号公報

複数の組織が研究開発等において協業を行う場合、その協業によってデータが生成される。成果となるデータは、それぞれの組織で所有するように契約されることがある。
しかし、成果となるデータが会話の音声情報である場合であって話者から組織を特定できない場合、音声情報の全てを記憶し、管理者が組織毎に区別する必要がある。
本発明は、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。なお、以下の「請求項」とあるのは、出願当初の請求項である。
請求項１の発明は、音声情報を受け付ける受付手段と、前記音声情報から話者を特定する第１の特定手段と、前記話者が属している組織を特定する第２の特定手段と、前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段を有する情報処理装置である。

請求項２の発明は、前記受付手段は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付ける、請求項１に記載の情報処理装置である。

請求項３の発明は、前記受付手段は、前記第１の組織と前記第２の組織による音声認識についての共同作業における会話を受け付ける、請求項２に記載の情報処理装置である。

請求項４の発明は、前記出力手段は、前記第２の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、請求項１に記載の情報処理装置である。

請求項５の発明は、前記出力手段は、前記第２の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、請求項４に記載の情報処理装置である。

請求項６の発明は、前記第１の特定手段は、前記組織毎に用意されており、前記第２の特定手段によって、組織が特定された後は、該組織に対応する第１の特定手段を用いる、請求項１に記載の情報処理装置である。

請求項７の発明は、前記音声情報を認識する認識手段を、前記組織毎に用意し、前記第２の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、請求項６に記載の情報処理装置である。

請求項８の発明は、前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか１つ又はこれらの組み合わせである、請求項１から７のいずれか１項に記載の情報処理装置である。

請求項９の発明は、コンピュータを、音声情報を受け付ける受付手段と、前記音声情報から話者を特定する第１の特定手段と、前記話者が属している組織を特定する第２の特定手段と、前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる。

請求項２の情報処理装置によれば、異なる組織に属する複数の話者による音声情報を対象とすることができる。

請求項３の情報処理装置によれば、複数の組織による音声認識についての共同作業における会話を対象とすることができる。

請求項４の情報処理装置によれば、話者の組織がアクセス可能な装置が、音声情報に関する情報を取得することができる。

請求項５の情報処理装置によれば、話者の組織が複数ある場合は、その複数の組織がアクセス可能な装置が、音声情報に関する情報を取得することができる。

請求項６の情報処理装置によれば、組織が特定された後は、その組織に対応する話者特定手段が用いられる。

請求項７の情報処理装置によれば、組織が特定された後は、その組織に対応する音声認識手段が用いられる。

請求項８の情報処理装置によれば、音声情報、その音声情報の認識結果、その音声情報を用いた機械学習結果、のいずれか１つ又はこれらの組み合わせを出力することができる。

請求項９の情報処理プログラムによれば、話者の音声情報に基づいて得られる情報を、組織に応じた出力先に出力することができる。

第１の実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態を利用したシステム構成例を示す説明図である。第１の実施の形態による処理例を示すフローチャートである。話者－会社リストのデータ構造例を示す説明図である。会議話者リストのデータ構造例を示す説明図である。出力先リストのデータ構造例を示す説明図である。Ｘ社用出力情報のデータ構造例を示す説明図である。第１の実施の形態による処理例を示すフローチャートである。第１の実施の形態による処理例を示す説明図である。第１の実施の形態による処理例を示す説明図である。第２の実施の形態の構成例についての概念的なモジュール構成図である。第２の実施の形態による処理例を示すフローチャートである。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
＜第１の実施の形態＞
図１は、第１の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係、ログイン等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、全ての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。また、「Ａ、Ｂ、Ｃ」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その１つのみを選んでいる場合（例えば、Ａのみ）を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

本実施の形態である情報処理装置１００は、図１の例に示すように、音声受付モジュール１０５、一時記憶モジュール１１０、音声処理モジュール１１５、話者・組織対応記憶モジュール１３５、組織特定モジュール１４０、出力モジュール１４５を有している。
情報処理装置１００は、異なる組織に属している複数人の話者の音声情報に関する情報を、その各組織の出力先に出力する機能を有している。例えば、他社との協業における成果の出力制御の処理を行う。

音声受付モジュール１０５は、一時記憶モジュール１１０と接続されている。音声受付モジュール１０５は、話者の音声情報を受け付ける。例えば、マイク自体であってもよいし、マイクから音声情報を受け取ってもよいし、音声情報を記録した記録媒体から音声情報を読み出すようにしてもよい。
また、音声受付モジュール１０５は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付けるようにしてもよい。
さらに詳細には、音声受付モジュール１０５は、第１の組織と第２の組織による音声認識についての共同作業における会話を受け付けるようにしてもよい。
ここで「共同作業」として、協業、コラボレーション、協調作業、共同研究等を含む。

一時記憶モジュール１１０は、音声受付モジュール１０５、音声処理モジュール１１５と接続されている。一時記憶モジュール１１０は、音声受付モジュール１０５が受け付けた音声情報を記憶する。また、音声処理モジュール１１５（話者特定モジュール１２０、音声認識モジュール１２５、音声ＡＩ機械学習モジュール１３０）の処理結果を記憶する。そして、出力モジュール１４５が、それらの情報を出力した後に、出力した情報を削除する。

音声処理モジュール１１５は、話者特定モジュール１２０、音声認識モジュール１２５、音声ＡＩ機械学習モジュール１３０を有しており、一時記憶モジュール１１０、組織特定モジュール１４０と接続されている。音声処理モジュール１１５は、音声情報に関する処理を行う。
話者特定モジュール１２０は、音声受付モジュール１０５が受け付けた音声情報から話者（その音声情報の音声を発生した者）を特定する。既存の技術（例えば、話者照合、話者認証、話者識別、話者認識等）を用いればよい。例えば、予め話者の音声をテンプレート（例えば、声紋）として記憶しておき、音声受付モジュール１０５が受け付けた音声情報と照合すればよい。

音声認識モジュール１２５は、音声受付モジュール１０５が受け付けた音声情報を認識する。既存の技術を用いればよい。具体的には、音声情報から文字情報（テキスト）に変換する。
音声ＡＩ機械学習モジュール１３０は、音声受付モジュール１０５が受け付けた音声情報を用いて、機械学習を行う。例えば、音声ＡＩ機械学習モジュール１３０は、音声受付モジュール１０５が受け付けた音声情報と話者特定モジュール１２０の処理結果を用いて、話者特定を行う機械学習を行うようにしてもよい。また、音声ＡＩ機械学習モジュール１３０は、音声受付モジュール１０５が受け付けた音声情報と音声認識モジュール１２５の処理結果を用いて、音声認識を行う機械学習を行うようにしてもよい。
なお、話者特定モジュール１２０又は音声認識モジュール１２５は、音声ＡＩ機械学習モジュール１３０によって機械学習されたＡＩデータ（モデル）を用いた人工知能であってもよい。

話者・組織対応記憶モジュール１３５は、組織特定モジュール１４０と接続されている。話者・組織対応記憶モジュール１３５は、話者と組織とが対応づけられているテーブル等（具体的には、図４の例で示す話者－会社リスト４００等）、組織と出力先とが対応づけられているテーブル等（具体的には、図６の例で示す出力先リスト６００等）が記憶されている。
組織特定モジュール１４０は、音声処理モジュール１１５、話者・組織対応記憶モジュール１３５、出力モジュール１４５と接続されている。組織特定モジュール１４０は、話者特定モジュール１２０によって特定された話者が属している組織を特定する。例えば、話者・組織対応記憶モジュール１３５内の話者と組織とが対応づけられているテーブル等を用いて、話者から組織を特定すればよい。

出力モジュール１４５は、組織特定モジュール１４０と接続されている。出力モジュール１４５は、組織特定モジュール１４０によって特定された組織に応じた出力先に、音声情報に関する情報を出力する。
ここで「組織に応じた出力先」として、その組織がアクセス権を有している記憶手段が該当する。例えば、その組織が有しているサーバーであってもよいし、ストレージサービスを行っているクラウド上でその組織がアクセス可能な領域であってもよい。
また「音声情報に関する情報」として、音声受付モジュール１０５が受け付けた音声情報、その音声情報の認識結果（音声認識モジュール１２５による認識結果）、その音声情報を用いた機械学習結果（音声ＡＩ機械学習モジュール１３０による学習結果であるＡＩデータ）のいずれか１つ又はこれらの組み合わせである。
また、出力モジュール１４５は、組織特定モジュール１４０によって特定された組織がアクセス可能な装置に、音声情報に関する情報を出力するようにしてもよい。

さらに、出力モジュール１４５は、組織特定モジュール１４０によって特定された組織が複数ある場合は、その複数の組織がアクセス可能な装置に、音声情報に関する情報を出力するようにしてもよい。
ここで「組織特定モジュール１４０によって特定された組織が複数ある場合」として、異なる組織に属している話者がいる場合が該当する。より具体的には、それぞれ異なる話者が異なる組織である場合、同じ組織に属している話者が複数人いるが、少なくとも他の組織に属している話者もいる場合等が該当する。
なお、一人の話者が複数の組織に属している場合は、（１）その話者が属している複数の組織がアクセス可能な装置、（２）いずれか１つの組織がアクセス可能な装置（予め定められた組織としてもよいし、管理者、話者等によって選択された組織であってもよい）、（３）共同研究又は共同開発をしている組織がアクセス可能な装置、のいずれかである。

図２は、本実施の形態を利用したシステム構成例を示す説明図である。
会議室２００内の情報処理装置１００、Ａ社音声管理装置２５０Ａ、Ｂ社音声管理装置２５０Ｂ、Ｃ社音声管理装置２５０Ｃは、通信回線２９０を介してそれぞれ接続されている。
会議室２００内には、情報処理装置１００、マイク２２０が設置されており、Ａ社参加者群２１２、Ｂ社参加者群２１４、Ｃ社参加者群２１６がいる。Ａ社参加者群２１２には、Ａ社参加者２０１、Ａ社参加者２０２が含まれる。Ｂ社参加者群２１４には、Ｂ社参加者２０３が含まれる。Ｃ社参加者群２１６には、Ｃ社参加者２０４、Ｃ社参加者２０５が含まれる。Ａ社参加者２０１等の参加者は、それぞれが話者となり得る。例えば、Ａ社参加者２０１等は、それぞれの組織（Ａ社等）に属している社員等（研究者、被験者等）である。なお、ここで「組織に属している者」には、雇用関係にある者だけでなく、その組織から依頼された者（パート、アルバイト、派遣社員、契約社員等）であってもよい。

例えば、他社と協業している時に生成されるデータを、その会社毎に分割管理したいという要望がある。
他社と協業して、会議における音声認識の実験を行っている場合を想定する。この実験では、以下のアウトプットが生成されるが、実験の条件によって会社毎に分割管理したいことがある。
アウトプット例
（１）会議での発話の音声データ
（２）音声データを音声認識して得られるテキストデータ
（３）音声認識の実験によって得られる学習済みのＡＩデータ
実用に耐えるかを試すために、本物の会議で実験しているため、会議の中身に関わるデータは他社に出したくないということが生じる。本実施の形態を用いない場合（いわゆる従来技術）では、音声認識処理で用いる又は発生する上記（１）（２）（３）のデータを都度クリーンアップして実験を始めて、終了後に管理者がそれらのデータを会社毎に別途保管することが行われている。
このため、ａ）実験データの管理が別途必要で煩雑であり、ｂ）前記ＡＩデータが実験毎にクリアされるので、学習が進まないことになる。

そこで、情報処理装置１００は、Ａ社参加者群２１２による音声情報に関する情報はＡ社音声管理装置２５０Ａに格納し、Ｂ社参加者群２１４による音声情報に関する情報はＢ社音声管理装置２５０Ｂに格納し、Ｃ社参加者群２１６による音声情報に関する情報はＣ社音声管理装置２５０Ｃに格納することを行う。
例えば、情報処理装置１００は、以下のような処理を行う。
最初は１社のみの参加の状態である。
次の話者が、同じ会社であれば、そのまま出力先を変更しない。
次の話者が、別の会社であれば、認識に使った音声ファイルと、認識結果、学習済みのＡＩデータを破棄して（一時記憶モジュール１１０から削除して）、別の出力先に切り替える。
又は、事前処理として、第２の実施の形態に示すように、音声処理モジュール１１１５を会社毎に設けて、その会社を特定した後は音声処理モジュール１１１５を呼び分けるようにしてもよい。この場合、各音声処理モジュール１１１５内の話者特定モジュール１１２０に処理を行わせることになるが、話者を特定できなかった音声処理モジュール１１１５内の話者特定モジュール１１２０の処理結果は破棄する。
以降、新しい会社の参加者が増えると、切り替えた音声処理モジュール１１１５を使う。

図３は、第１の実施の形態による処理例を示すフローチャートである。
ステップＳ３０２では、話者特定モジュール１２０は、話者を特定する。例えば、話者－会社リスト４００を用いる。図４は、話者－会社リスト４００のデータ構造例を示す説明図である。話者－会社リスト４００は、ユーザーＩＤ欄４１０、話者欄４２０、会社欄４３０、話者情報欄４４０を有している。ユーザーＩＤ欄４１０は、本実施の形態において、話者となり得るユーザーを一意に識別するための情報（ユーザーＩＤ：ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）を記憶している。話者欄４２０は、そのユーザーの名称を記憶している。会社欄４３０は、そのユーザーが属している会社を記憶している。話者情報欄４４０は、そのユーザーであると特定するための話者情報（例えば、声紋等）を記憶している。話者を特定するのに、話者情報欄４４０内のデータを用いる。
例えば、ユーザーＩＤ：１は、話者「山田」、会社「Ａ社」、話者情報「声紋１」であることを示しており、ユーザーＩＤ：２は、話者「田中」、会社「Ａ社」、話者情報「声紋２」であることを示しており、ユーザーＩＤ：３は、話者「大川」、会社「Ｂ社」、話者情報「声紋３」であることを示している。

ステップＳ３０４では、話者特定モジュール１２０は、その話者を会議話者リスト５００に追加する。図５は、会議話者リスト５００のデータ構造例を示す説明図である。会議話者リスト５００は、Ｎｏ欄５１０、日時欄５２０、ユーザーＩＤ欄５３０、会社欄５４０を有している。Ｎｏ欄５１０は、Ｎｏ（具体的には、話者となった順番）を記憶している。日時欄５２０は、話者が発話した日時（年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい）を記憶している。ユーザーＩＤ欄５３０は、ユーザーＩＤを記憶している。会社欄５４０は、そのユーザーが属している会社を記憶している。
例えば、Ｎｏ：１は、日時「発話時刻」、ユーザーＩＤ「１」、会社「Ａ社」であることを示しており、Ｎｏ：２は、日時「発話時刻」、ユーザーＩＤ「２」、会社「Ｂ社」であることを示しており、Ｎｏ：３は、日時「発話時刻」、ユーザーＩＤ「３」、会社「Ｃ社」であることを示している。

ステップＳ３０６では、組織特定モジュール１４０は、出力先を判定する。例えば、出力先リスト６００を用いればよい。図６は、出力先リスト６００のデータ構造例を示す説明図である。出力先リスト６００は、Ｎｏ欄６１０、会社名欄６２０、パス欄６３０を有している。Ｎｏ欄６１０は、Ｎｏを記憶している。会社名欄６２０は、会社名を記憶している。パス欄６３０は、その会社の出力先であるパスを記憶している。この例では、フォルダ毎に会社の出力先が設定されている。
例えば、Ｎｏ：１は、会社名「Ａ」、そのＡ社の出力先であるパスは「Ｃ：￥Ａ」であることを示しており、Ｎｏ：２は、会社名「ＡＢ」、そのＡＢ社の出力先であるパスは「Ｃ：￥ＡＢ」であることを示している。

ステップＳ３０８では、組織特定モジュール１４０は、出力先を変更する。
ステップＳ３１０では、出力モジュール１４５は、各会社に音声関係データを出力する。例えば、Ｘ社用出力情報７００を出力する。図７は、Ｘ社用出力情報７００のデータ構造例を示す説明図である。
Ｘ社用出力情報７００は、音声情報欄７１０、認識結果欄７２０、ＡＩ情報欄７３０を有している。音声情報欄７１０は、音声情報を記憶している。認識結果欄７２０は、その音声情報の認識結果を記憶している。ＡＩ情報欄７３０は、その音声情報（さらに、認識結果）を用いたＡＩ用の機械学習結果の情報（例えば、機械学習結果であるモデルのファイルの記憶場所（ＵＲＬ）等）を記憶している。
ステップＳ３１２では、出力モジュール１４５は、話者を特定した音声関係データを削除する。具体的には、話者・組織対応記憶モジュール１３５内のＸ社用出力情報７００を削除する。

図８は、第１の実施の形態による処理例を示すフローチャートである。具体的には、新規の話者が出現した場合の処理例を示すものである。
ステップＳ８０２では、話者－会社リスト４００に新規の話者を追加する。
ステップＳ８０４では、出力先リスト６００に、その新規の話者の会社名があるか否かを判断し、ある場合はステップＳ８１４へ進み、それ以外の場合はステップＳ８０６へ進む。

ステップＳ８０６では、出力先リスト６００に会社名を追加する。
ステップＳ８０８では、パス名を生成する。
ステップＳ８１０では、そのパス名のフォルダを作成する。
ステップＳ８１２では、会社毎にアクセス権を付与する。
ステップＳ８１４では、その会社名のパスを使用する。ここでのパスは、ステップＳ８０４でＹｅｓの場合は既にある会社の出力先であり、ステップＳ８０４でＮｏの場合は新しく生成された出力先である。

図９は、第１の実施の形態による処理例を示す説明図である。
情報処理装置１００は、Ａ社参加者２０１が発話している間の音声情報、その音声情報の認識結果、その音声情報を用いたＡＩデータ（以下、音声情報等）をＡ社音声管理装置２５０Ａに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ｂ社参加者２０３が発話している間の音声情報等をＢ社音声管理装置２５０Ｂに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ｃ社参加者２０４が発話している間の音声情報等をＣ社音声管理装置２５０Ｃに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ａ社参加者２０１とＢ社参加者２０３が発話している間の音声情報等をＡ社音声管理装置２５０Ａ、Ｂ社音声管理装置２５０Ｂに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。

図１０は、第１の実施の形態による処理例を示す説明図である。また、Ａ社、Ｂ社、Ｃ社間で、音声情報等を共有することが契約されている場合は、以下のようにしてもよい。つまり、既に特定された会社（例えば、Ａ社）と新たに特定された会社（例えば、Ｂ社）で、音声情報等を共有することが契約されているか否かを判断し、その契約がある場合は、その複数の会社（例えば、Ａ社とＢ社）の出力先に出力するようにしてもよい。「契約されているか否かの判断」として、具体的には、複数会社間（２社間、３社間等）の契約があるか否かを反映したフラグ（契約データ）を管理しておき、出力先を判断する際に、そのフラグが立っている場合（契約があることを示す）、その複数社を出力先として音声情報に関する情報を出力し、フラグが立っていない場合（契約がないことを示す）、発話者が属している会社の出力先に音声情報に関する情報を出力する。

例えば、Ａ社とＢ社とＣ社の３社間で、音声情報等を共有することの契約が結ばれている場合は、図１０に示すようになる。
情報処理装置１００は、Ａ社参加者２０１が発話している間の音声情報等をＡ社音声管理装置２５０Ａに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ｂ社参加者２０３が発話している間の音声情報等をＡ社音声管理装置２５０Ａ、Ｂ社音声管理装置２５０Ｂに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ｃ社参加者２０４が発話している間の音声情報等をＡ社音声管理装置２５０Ａ、Ｂ社音声管理装置２５０Ｂ、Ｃ社音声管理装置２５０Ｃに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。
次に、情報処理装置１００は、Ａ社参加者２０１とＢ社参加者２０３が発話している間の音声情報等をＡ社音声管理装置２５０Ａ、Ｂ社音声管理装置２５０Ｂ、Ｃ社音声管理装置２５０Ｃに出力する。出力後に、情報処理装置１００は、その音声情報等を削除する。

＜第２の実施の形態＞
図１１は、第２の実施の形態の構成例についての概念的なモジュール構成図を示している。
第２の実施の形態は、組織毎に音声処理モジュール１１１５を用意したものである。つまり、対象となる組織の数だけ音声処理モジュール１１１５を、情報処理装置１１００内に構築している。音声処理モジュール１１１５は、各組織が開発したものであってもよいし、同じ音声処理モジュール１１１５を複製したものであってもよい。なお、同じ音声処理モジュール１１１５を複製した場合であっても、話者特定モジュール１１２０では、その組織に属している話者のデータ（いわゆる辞書データ）を個別に用意しており、音声ＡＩ機械学習モジュール１１３０では、機械学習によって異なるＡＩデータが生成されることになる。
なお、第１の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。

情報処理装置１１００は、音声受付モジュール１０５、一時記憶モジュール１１０、音声処理モジュール１１１５Ａ、音声処理モジュール１１１５Ｂ、・・・、組織特定モジュール１１４０、出力モジュール１４５を有している。
音声受付モジュール１０５は、一時記憶モジュール１１０と接続されている。
一時記憶モジュール１１０は、音声受付モジュール１０５、音声処理モジュール１１１５Ａ、音声処理モジュール１１１５Ｂと接続されている。
音声処理モジュール１１１５Ａは、組織Ａ用に用意したものであって、話者特定モジュール１１２０Ａ、音声認識モジュール１１２５Ａ、音声ＡＩ機械学習モジュール１１３０Ａを有しており、一時記憶モジュール１１０、組織特定モジュール１１４０と接続されている。音声処理モジュール１１１５Ａは、音声処理モジュール１１５と同等の機能を有しており、話者特定モジュール１１２０Ａ、音声認識モジュール１１２５Ａ、音声ＡＩ機械学習モジュール１１３０Ａも、それぞれ話者特定モジュール１２０、音声認識モジュール１２５、音声ＡＩ機械学習モジュール１３０と同等の機能を有している。ただし、話者特定モジュール１１２０Ａ、音声認識モジュール１１２５Ａ、音声ＡＩ機械学習モジュール１１３０Ａは、組織Ａ用に調整（チューニング）されていてもよい。ここでの調整とは、組織Ａに属している話者の特定等の処理の正答率を高めるようにパラメータ、アルゴリズム等の修正が行われていることをいう。
音声処理モジュール１１１５Ｂは、組織Ｂ用に用意したものであって、音声処理モジュール１１１５Ａと同じモジュールを有している。ただし、音声処理モジュール１１１５Ｂ内の話者特定モジュール１１２０、音声認識モジュール１１２５、音声ＡＩ機械学習モジュール１１３０は、組織Ｂ用に調整されていてもよい。

組織特定モジュール１１４０によって、組織が特定された後は、その組織に対応する音声処理モジュール１１１５（話者特定モジュール１１２０、音声認識モジュール１１２５、音声ＡＩ機械学習モジュール１１３０）を用いる。つまり、組織特定モジュール１１４０によって、組織が特定された後は、その組織に対応する話者特定モジュール１１２０を用いる。組織特定モジュール１１４０によって、組織が特定された後は、その組織に対応する音声認識モジュール１１２５を用いる。組織特定モジュール１１４０によって、組織が特定された後は、その組織に対応する音声ＡＩ機械学習モジュール１１３０を用いる。
組織特定モジュール１１４０は、音声処理モジュール１１１５Ａ、音声処理モジュール１１１５Ｂ、出力モジュール１４５と接続されている。組織特定モジュール１１４０は、組織特定モジュール１４０と同等の機能を有している。ただし、いずれの話者特定モジュール１１２０によって話者が特定されたかによって、組織を特定する。つまり、話者を特定した話者特定モジュール１１２０（音声処理モジュール１１１５）に対応する組織を、出力先とするものである。
出力モジュール１４５は、組織特定モジュール１１４０と接続されている。

図１２は、第２の実施の形態による処理例を示すフローチャートである。
ステップＳ１２０２では、各社の話者特定モジュール１１２０で話者を特定する。具体的には、音声情報を全ての音声処理モジュール１１１５内の話者特定モジュール１１２０で処理する。話者を特定できる話者特定モジュール１１２０（話者が属している会社に割り当てられている音声処理モジュール１１１５内の話者特定モジュール１１２０）と、話者を特定できない話者特定モジュール１１２０（話者が属していない会社に割り当てられている音声処理モジュール１１１５内の話者特定モジュール１１２０）がある。
ステップＳ１２０４では、話者を特定できた話者特定モジュール１１２０で出力先を判定する。つまり、話者を特定できた話者特定モジュール１１２０（音声処理モジュール１１１５）に割り当てられた会社が出力先となる。

ステップＳ１２０６では、予め定められた時間は経過したか否かを判断し、経過した場合はステップＳ１２０８へ進み、それ以外の場合はステップＳ１２０２へ戻る。例えば、単なる返事のみである場合は音声処理モジュール１１１５による処理は不要であって、話者としての期間が予め定められた時間以上である場合に音声処理モジュール１１１５による処理を行わせるようにしている。
ステップＳ１２０８では、音声処理を行わせる音声処理モジュール１１１５を特定する。この後は、話者の音声処理（音声認識、機械学習等）は、その音声処理モジュール１１１５に行わせる。
ステップＳ１２１０では、音声処理モジュール１１１５に対応する会社に音声関係データを出力する。
ステップＳ１２１２では、話者を特定した音声関係データを削除する。もちろんのことながら、ステップＳ１２０２で、他の話者特定モジュール１１２０（出力先とはならなかった会社に割り当てられた音声処理モジュール１１１５内の話者特定モジュール１１２０）が用いた音声関係データも削除する。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図１３に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ１３０１を用い、記憶装置としてＲＡＭ１３０２、ＲＯＭ１３０３、ＨＤＤ１３０４を用いている。ＨＤＤ１３０４として、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、フラッシュ・メモリであるＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等を用いてもよい。音声受付モジュール１０５、音声処理モジュール１１５、話者特定モジュール１２０、音声認識モジュール１２５、音声ＡＩ機械学習モジュール１３０、組織特定モジュール１４０、出力モジュール１４５、音声処理モジュール１１１５、話者特定モジュール１１２０、音声認識モジュール１１２５、音声ＡＩ機械学習モジュール１１３０、組織特定モジュール１１４０等のプログラムを実行するＣＰＵ１３０１と、そのプログラムやデータを記憶するＲＡＭ１３０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ１３０３と、一時記憶モジュール１１０、話者・組織対応記憶モジュール１３５等としての機能を有する補助記憶装置であるＨＤＤ１３０４と、キーボード、マウス、タッチスクリーン、マイク、カメラ（視線検知カメラ等を含む）等に対する利用者の操作（動作、音声、視線等を含む）に基づいてデータを受け付ける受付装置１３０６と、ＣＲＴ、液晶ディスプレイ、スピーカー等の出力装置１３０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース１３０７、そして、それらをつないでデータのやりとりをするためのバス１３０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図１３に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図１３に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えば特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）や再構成可能な集積回路（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ：ＦＰＧＡ）等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図１３に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器（携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む）、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

前述の実施の形態において、話者を特定できない場合は、話者登録用のユーザーインタフェースを提示し、話者名（又は組織名）を選択させるようにしてもよい。また、特定できない話者用の出力先を予め用意しておいてもよい。その出力先は、管理者のみがアクセスできるものである。そして、話者を特定できない場合、その話者の音声情報に関する情報を、その出力先に出力する。なお、第２の実施の形態の場合は、話者を特定できない場合は、予め定められた音声処理モジュール１１１５が音声処理を行うようにしておけばよい。そして、その出力先の音声情報に関する情報は、管理者が適切な組織に振り分けるようにしておけばよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ－Ｒ、ＤＶＤ－ＲＷ、ＤＶＤ－ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ－ＲＯＭ）、ＣＤレコーダブル（ＣＤ－Ｒ）、ＣＤリライタブル（ＣＤ－ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。

１００…情報処理装置
１０５…音声受付モジュール
１１０…一時記憶モジュール
１１５…音声処理モジュール
１２０…話者特定モジュール
１２５…音声認識モジュール
１３０…音声ＡＩ機械学習モジュール
１３５…話者・組織対応記憶モジュール
１４０…組織特定モジュール
１４５…出力モジュール
２２０…マイク
２５０…音声管理装置
２９０…通信回線
１１００…情報処理装置
１１１５…音声処理モジュール
１１２０…話者特定モジュール
１１２５…音声認識モジュール
１１３０…音声ＡＩ機械学習モジュール
１１４０…組織特定モジュール

Claims

音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記受付手段は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付け、
前記受付手段は、前記第１の組織と前記第２の組織による音声認識についての共同作業における会話を受け付ける、
情報処理装置。
前記出力手段は、前記第２の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項１に記載の情報処理装置。
前記出力手段は、前記第２の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項２に記載の情報処理装置。
前記第１の特定手段は、前記組織毎に用意されており、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する第１の特定手段を用いる、
請求項１に記載の情報処理装置。
前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項４に記載の情報処理装置。
前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか１つ又はこれらの組み合わせである、
請求項１から５のいずれか１項に記載の情報処理装置。
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記出力手段は、前記第２の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
情報処理装置。
前記受付手段は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付ける、
請求項７に記載の情報処理装置。
前記受付手段は、前記第１の組織と前記第２の組織による音声認識についての共同作業における会話を受け付ける、
請求項８に記載の情報処理装置。
前記出力手段は、前記第２の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項７に記載の情報処理装置。
前記第１の特定手段は、前記組織毎に用意されており、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する第１の特定手段を用いる、
請求項７に記載の情報処理装置。
前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項１１に記載の情報処理装置。
前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか１つ又はこれらの組み合わせである、
請求項７から１２のいずれか１項に記載の情報処理装置。
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
を有し、
前記第１の特定手段は、前記組織毎に用意されており、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する第１の特定手段を用いる、
情報処理装置。
前記受付手段は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付ける、
請求項１４に記載の情報処理装置。
前記受付手段は、前記第１の組織と前記第２の組織による音声認識についての共同作業における会話を受け付ける、
請求項１５に記載の情報処理装置。
前記出力手段は、前記第２の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項１４に記載の情報処理装置。
前記出力手段は、前記第２の特定手段によって特定された組織が複数ある場合は、該複数の組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
請求項１７に記載の情報処理装置。
前記音声情報を認識する認識手段を、前記組織毎に用意し、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する認識手段を用いる、
請求項１４に記載の情報処理装置。
前記出力手段は、前記音声情報に関する情報として、前記音声情報、該音声情報の認識結果、該音声情報を用いた機械学習結果、のいずれか１つ又はこれらの組み合わせである、
請求項１４から１９のいずれか１項に記載の情報処理装置。
コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記受付手段は、第１の組織に属する話者による音声情報と第２の組織に属する話者による音声情報を受け付け、
前記受付手段は、前記第１の組織と前記第２の組織による音声認識についての共同作業における会話を受け付ける、
情報処理プログラム。
コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記出力手段は、前記第２の特定手段によって特定された組織がアクセス可能な装置に、前記音声情報に関する情報を出力する、
情報処理プログラム。
コンピュータを、
音声情報を受け付ける受付手段と、
前記音声情報から話者を特定する第１の特定手段と、
前記話者が属している組織を特定する第２の特定手段と、
前記組織に応じた出力先に、前記音声情報に関する情報を出力する出力手段
として機能させ、
前記第１の特定手段は、前記組織毎に用意されており、
前記第２の特定手段によって、組織が特定された後は、該組織に対応する第１の特定手段を用いる、
情報処理プログラム。