JP7229821B2

JP7229821B2 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP7229821B2
Application number: JP2019049064A
Authority: JP
Inventors: 圭子小島; 宏成高橋; 裕美金児; 洋明貞田
Original assignee: NTT Communications Corp
Current assignee: NTT Communications Corp
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2023-02-28
Anticipated expiration: 2039-03-15
Also published as: JP2020149628A; CN112654991A; WO2020189441A1; US20220058277A1

Description

この発明の一態様は、文書データを処理する情報処理装置、情報処理方法、およびプログラムに関する。

音声認識技術や言語解析技術を用いた、文書データの作成支援サービスが提案されている。例えば、音声認識エンジンを活用して、会議中の発言などの音声をテキスト化することにより、会議録作成を支援する技術が知られている（例えば、非特許文献１参照）。また、会議中の会話音声に対し、話者を識別する情報を付与する技術も知られている（例えば、非特許文献２，３参照）。

ＮＴＴ東日本ＮｅｗｓＲｅｌｅａｓｅ、「会議録作成支援システム「ＶｏｉｃｅＡｉｒ」の提供開始について」、平成２２年１１月３０日、インターネット<URL: https://www.ntt-east.co.jp/release/detail/20101130_01.html> 堀貴明ほか、「みんなの会話を聞き取るコンピュータを目指して」、ＮＴＴ技術ジャーナル２０１３．９、インターネット<http://www.ntt.co.jp/journal/1309/files/jn201309018.pdf> ＮＴＴＲ＆ＤＦＯＲＵＭ２０１５、音声コラボレーションＶ－１５「リアルタイム会議音声認識技術（会議中の発言を記録し、効率的に振り返る）」、インターネット<http://www.ntt.co.jp/RD/active/201502/jp/ap/pdf/V-15_j.pdf>

しかし、会議録は、その性質上、多くの機密情報を含んでいる。また、会議中の会話を音声認識技術により自動的にテキスト化した場合、生成された文書は、会議参加者にのみ開示をとどめておきたい内容や、議題とは関わりのない脱線した話を含むこともある。

このような文書を複数人で閲覧可能に共有しようとする場合、あらかじめ開示したくない箇所の有無を確認し、開示したくない箇所は消去するなどの作業が必要となり、負担となっていた。また、役職や所属部署に応じて秘匿すべき箇所が異なる場合、例えば、役員クラスに配信する文書とその他の社員に配信する文書など、閲覧者グループごとに異なる文書データを作成しなければならず、非常に煩雑であった。

この発明は上記事情に着目してなされたもので、その目的とするところは、文書データ中の機密情報を簡易に秘匿化可能な技術を提供することにある。

上記課題を解決するためにこの発明の第１の態様は、文字情報からなるセンテンスを含む第１の文書データを取得する文書データ取得部と、上記第１の文書データをセンテンスに分割するセンテンス分割部と、上記第１の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定された第１のルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定し、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第２のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する秘匿対象判定部と、秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する秘匿化処理部と、上記秘匿化処理部によって秘匿化処理を実行されたセンテンスを含む第２の文書データを出力する出力部とを具備するようにしたものである。

この発明の第２の態様は、上記秘匿対象判定部が、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合に、当該センテンスが秘匿化の対象であると判定するようにしたものである。

この発明の第３の態様は、上記秘匿対象判定部が、特定のセンテンスが特定の話者に関連付けられる場合に、当該センテンスが秘匿化の対象であると判定するようにしたものである。

この発明の第４の態様は、上記秘匿対象判定部が、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、上記特定のセンテンスと同一の話者の発話として識別される、上記特定のセンテンスに連続する一連のセンテンスを秘匿化の対象であると判定するようにしたものである。

この発明の第５の態様は、上記秘匿対象判定部が、上記あらかじめ設定されたルールに基づいて、上記第１の文書データに含まれる分割されたセンテンスごとに機密性の高さを表す機密レベルを判定し、上記秘匿化処理部が、上記センテンスごとに、上記秘匿対象判定部によって判定された機密レベルに応じて異なる秘匿化処理を実行するようにしたものである。

この発明の第６の態様は、上記秘匿化処理部が、上記センテンスごとに、上記機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理を実行するようにしたものである。

この発明の第７の態様は、上記秘匿化処理部が、秘匿化の対象であると判定されたセンテンスに対して時限式の秘匿化処理を実行するようにしたものである。

この発明の第１の態様によれば、文字情報からなるセンテンスを含む文書データに対して、あらかじめ設定された第１のルールに基づいて、センテンスごとに秘匿化の対象であるか否かが判定され、秘匿化の対象であると判定された場合にはそのセンテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理が実行され、秘匿化処理後の文書データが出力される。これにより、秘匿化の対象であるセンテンスについてはセンテンス単位で適切な秘匿化処理が実行された、開示用の文書データを簡易に得ることができる。
また、秘匿化の対象でないと判定されたセンテンスについては、当該センテンスに含まれるワードごとに、あらかじめ設定された第２のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定し、秘匿化の対象であると判定されたワード単位で秘匿化処理が実行される。これにより、秘匿対象でないセンテンスについても、秘匿対象のワードを含む場合にはそのワード単位で適切に秘匿化された、開示用の文書データを得ることができる。

この発明の第２の態様によれば、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合、当該センテンスが秘匿化の対象であると判定され、秘匿化処理が実行される。これにより、複雑な解析処理を要することなく、センテンスに含まれる秘匿化の対象語の数または割合に応じてセンテンス単位で秘匿化処理が実行された、開示用の文書データを得ることができる。

この発明の第３の態様によれば、特定のセンテンスが特定の話者に関連付けられる場合、当該センテンスが秘匿化の対象であると判定され、秘匿化処理が実行される。これにより、例えば、経営者、人事関係者、技術開発担当者など、機密情報に関わる特定の話者が話した内容が秘匿化処理された、開示用の文書データを得ることができる。

この発明の第４の態様によれば、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、当該特定のセンテンスと同一の話者の発話として識別される、当該センテンスに連続する一連のセンテンスが秘匿化の対象であると判定され、一連のセンテンスに対して秘匿化処理が実行される。これにより、複雑な解析処理を要することなく、「他言無用でお願いしたいのですが・・・」「ここからはオフレコで・・・」など、話者が開示を望まないことを示すフレーズを特定のセンテンスが含む場合、同一の話者による発話の内容が秘匿化処理された、開示用の文書データを得ることができる。

この発明の第５の態様によれば、文書データに含まれるセンテンスごとに機密性の高さを表す機密レベルが判定され、判定された機密レベルに応じて異なる秘匿化処理が実行される。これにより、機密レベルの低いセンテンスに対しては処理負荷の小さい暗号化処理を採用し、機密レベルの高いセンテンスに対してはより複雑な暗号化処理を採用するなど、閲覧者や文書の性質に応じて適切に処理の高速化および負荷軽減を図ることができる。

この発明の第６の態様によれば、センテンスごとに、機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理が実行される。これにより、復元用の鍵へのアクセス権を設定することによって、または鍵の配布先を制御することによって、単一の開示用文書データで、複数のレベルの情報開示を実現することができる。

この発明の第７の態様によれば、秘匿化の対象であると判定されたセンテンスに対して、時限式の秘匿化処理が実行される。これにより、例えば一定時間経過後に開示が望まれる文書に対して、当該時間経過後に復号鍵や開示用文書を別途配布する必要のない、適切な秘匿化処理を実行することができる。

すなわちこの発明の各態様によれば、文書データ中の機密情報を簡易に秘匿化可能な技術を提供することができる。

図１は、この発明の一実施形態に係る文書処理装置を備えたシステムの全体構成を示す図である。図２は、この発明の一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図３は、この発明の一実施形態に係る文書処理装置のソフトウェア構成を示すブロック図である。図４は、図３に示した文書処理装置による処理手順と処理内容を示すフローチャートである。

以下、図面を参照してこの発明に係わる実施形態を説明する。

［一実施形態］
（構成）
（１）システム
図１は、この発明の一実施形態に係る情報処理装置としての文書処理装置１を備えたシステムの全体構成の一例を示す図である。

このシステムは、文書処理装置１を例えばＷｅｂ上またはクラウド上に備えている。そして、文書処理装置１を、会議室ＣＲ内の音声を収集して音声データを出力可能な音声情報収集装置ＶＲ、音声データを文書データに変換可能な音声情報処理装置２、および文書データを出力可能なユーザ端末ＵＴとの間で、ネットワークＮＷ１，ＮＷ２を介して通信可能にしている。

通信ネットワークＮＷ１，ＮＷ２（以下、まとめて「通信ネットワークＮＷ」ともいう）は、同じネットワークであっても異なるネットワークであってもよく、例えば、中継網と、この中継網に対しアクセスするための複数のアクセス網とから構成される。中継網としては、一般的なインターネットのような公衆網や限られた機器などからのみアクセスできるよう制御された閉域網が用いられる。アクセス網としては、例えば、無線ＬＡＮ（Local Area Network）、携帯電話網、有線電話網、ＦＴＴＨ（Fiber To The Home）、ＣＡＴＶ（Cable Television）網が用いられる。

会議室ＣＲ内に設置されたマイクやボイスレコーダ等の音声情報収集装置ＶＲは、会議参加者Ｐ１，Ｐ２，Ｐ３，Ｐ４，・・・（以下、まとめて「会議参加者Ｐ」という）の発話を音声情報として収集し、音声データＶＤを生成して、通信ネットワークＮＷ１を介して音声情報処理装置２に送信する。

音声情報処理装置２は、例えばＷｅｂ上またはクラウド上に配置された、あらかじめ蓄積された言語辞書等を通じて音声情報を文字情報（テキスト情報）に変換可能な任意の装置である。音声情報処理装置２は、例えば、音声認識ＡＩを用いた言語解析サービスを利用するものであってもよい（ＮＴＴコミュニケーションズ株式会社ＮｅｗｓＲｅｌｅａｓｅ、「世界最大級２１０万語超の日本語辞書を用いた自然言語解析ＡＰＩの本格提供を開始」、２０１８年９月５日、https://www.ntt.com/about-us/press-releases/news/article/2018/0905.html参照）。音声情報処理装置２は、音声情報収集装置ＶＲにより送信された音声データＶＤを、通信ネットワークＮＷ１を介して受信し、音声データＶＤに含まれる音声情報を文字情報に変換し、文字情報を含む文書データＤＤ１を生成して、通信ネットワークＮＷ２を介して文書処理装置１へと送信する処理を行う。

文書処理装置１は、音声情報処理装置２により送信された文書データＤＤ１を受信し、受信した文書データＤＤ１に対して必要な秘匿化処理を実行して、マスクや暗号化等の秘匿化処理を施された処理済み文書データＭＤ１を生成し出力する。

あるいは、文書処理装置１は、会議参加者Ｐがパーソナルコンピュータ等のユーザ端末ＵＴを用いて作成した文書データＤＤ２をもとに処理を実行することもできる。文書データＤＤ２は、文字情報を含む任意のデータ形式であってよい。文字情報は、文字、記号、文字列、記号列、文、文章等を含み、以下では、テキストまたはテキスト情報ともいう。文書データＤＤ２はまた、文字情報以外に、見出しや段落を表すレイアウト情報や、図形、グラフ、写真などの画像情報、または動画情報を含むものであってもよい。

文書処理装置１は、例えば通信ネットワークＮＷ１を介してユーザ端末ＵＴにより送信された文書データＤＤ２を受け取り、必要な秘匿化処理を実行して、マスクや暗号化等の秘匿化処理を施された処理済み文書データＭＤ２を生成し出力することができる。

このように、一実施形態に係る文書処理装置１は、第１の文書データとしての文書データＤＤ１またはＤＤ２（以下、まとめて「文書データＤＤ」という）を受け取り、当該文書データＤＤに対して秘匿化処理を実行して、第２の文書データとしての処理済み文書データＭＤ１またはＭＤ２（以下、まとめて「処理済み文書データＭＤ」という）を出力する。処理済み文書データＭＤは、秘匿化の対象箇所が閲覧できないように処理されている。図１の例では、処理済み文書データＭＤは、出席者や欠席者といった個人名に係る記載をはじめ、秘匿化処理の対象と判定された箇所が黒塗りによってマスクされている。ただし、文書処理装置１によって実行される秘匿化処理は、このようなマスク処理に限るものではなく、種々の方法による暗号化をはじめ、一般名称への置換、記号列への変換、または該当箇所の削除など、任意の処理を用いることができる。また、秘匿化処理は、元の文書データへと復元可能な処理であってもよいし、復元不可能な処理であってもよい。

（２）文書処理装置
（２－１）ハードウェア構成
図２は、この発明の一実施形態に係る文書処理装置１のハードウェア構成の一例を示すブロック図である。

文書処理装置１は、例えばサーバコンピュータまたはパーソナルコンピュータにより構成され、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサ２０Ａを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ２０Ｂ、データメモリ３０、通信インタフェース１１、および入出力インタフェース１２を、バス５０を介して接続したものとなっている。

入出力インタフェース１２には、文書処理装置１に付設される入力デバイス３および表示デバイス４が接続される。入出力インタフェース１２は、キーボードやタッチパネル、マウス等の入力デバイス３を通じてオペレータが入力した操作データを取り込むとともに、表示データを液晶または有機ＥＬ（Electro Luminescence）等を用いた表示デバイス４へ出力して表示させる処理を行う。なお、入力デバイス３および表示デバイス４は文書処理装置１に内蔵されたデバイスを使用してもよく、また通信ネットワークＮＷを介して通信可能な他の情報端末の入力デバイスおよび表示デバイスを使用してもよい。

通信インタフェース１１は、例えば１つ以上の有線または無線の通信インタフェースユニットを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線ＬＡＮが使用され、また無線インタフェースとしては、例えば無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）などの小電力無線データ通信規格を採用したインタフェースが使用される。通信インタフェース１１は、ユーザ端末ＵＴや音声情報処理装置２との間で、通信ネットワークＮＷにより規定される通信プロトコルにしたがいデータ伝送を行う。

プログラムメモリ２０Ｂは、記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ等の不揮発性メモリとを組み合わせて使用したもので、一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

データメモリ３０は、記憶媒体として、例えば、ＨＤＤまたはＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて使用したもので、処理を行う過程で取得および作成された各種データを記憶するために用いられる。

（２－２）ソフトウェア構成
図３は、この発明の一実施形態に係る文書処理装置１のソフトウェア構成を、図２に示したハードウェア構成と関連付けて示したブロック図である。
データメモリ３０の記憶領域には、秘匿化ルール記憶部３１と、文書データ記憶部３２とが設けられている。

秘匿化ルール記憶部３１は、秘匿化処理に関するあらかじめ設定されたルールを記憶するために用いられる。

文書データ記憶部３２は、処理対象の文書データを記憶するために用いられる。

ただし、記憶部３１～３２は必須の構成ではなく、例えば、ＵＳＢメモリなどの外付け記憶媒体や、クラウドに配置されたデータベースサーバ等の記憶装置に設けられたものであってもよい。

制御ユニット２０は、上記ハードウェアプロセッサ２０Ａと、上記プログラムメモリ２０Ｂとから構成され、ソフトウェアによる処理機能部として、秘匿化ルール取得部２１と、文書データ取得部２２と、センテンス分割部２３と、秘匿対象判定部２４と、秘匿化処理部２５と、出力制御部２６とを備えている。これらの処理機能部は、いずれもプログラムメモリ２０Ｂに格納されたプログラムを、上記ハードウェアプロセッサ２０Ａに実行させることにより実現される。制御ユニット２０は、また、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（field-programmable gate array）などの集積回路を含む、他の多様な形式で実現されてもよい。

秘匿化ルール取得部２１は、通信インタフェース１１を介してネットワーク上のサーバ等から、あらかじめ設定された秘匿化ルールを取得し、秘匿化ルール記憶部３１に格納する処理を行う。ここで、秘匿化ルールは、機密情報の秘匿化処理に関する様々なルールを含み得る。例えば、秘匿化ルールは、文書データの分割単位としてのセンテンスの定義、特定のセンテンスが秘匿化の対象であるか否かの判定に関する基準、特定のワードが秘匿化の対象であるか否かの判定に関する基準、秘匿化の対象であるセンテンスまたはワードの機密性の高さに関する基準、および秘匿化処理の方法を指定する情報を含むことができる。なお、秘匿化ルール取得部２１は必須の構成ではなく、秘匿化ルールは秘匿化ルール記憶部３１にあらかじめ格納されたものであってもよい。

文書データ取得部２２は、通信インタフェース１１を介して音声情報処理装置２またはユーザ端末ＵＴから処理対象である文書データＤＤを取得し、文書データ記憶部３２に格納する処理を行う。

センテンス分割部２３は、文書データ記憶部３２から文書データＤＤを読み出し、秘匿化ルール記憶部３１に格納された秘匿化ルールに基づいて、文書データＤＤに含まれる文字情報を秘匿化の判定単位としてのセンテンスごとに分割する処理を行う。ここで、センテンスとは、句点「。」や、ピリオド（ドット）「．」によって区切ることのできる文、または複数の文を含む文章、段落（パラグラフ）、またはタイトルや見出しのようにサイズや配置等によって他のテキスト部分と区別される部分など、１以上の単語（ワード）を含む任意のテキスト単位を指す。例えば、センテンス分割部２３は、句点「。」をセンテンスの区切りとして識別し、テキストをセンテンスごとに分割する。

秘匿対象判定部２４は、秘匿化ルール記憶部３１に格納された秘匿化ルールに基づいて、分割された各センテンスが秘匿化処理の対象であるか否かを判定する処理を行う。

秘匿化処理部２５は、秘匿化ルール記憶部３１に格納された秘匿化ルールに基づいて、文書データＤＤに含まれる文字情報を秘匿化する処理を行う。

出力制御部２６は、秘匿化処理部２５による秘匿化処理後の情報を用いて処理済み文書データＭＤを生成し、通信インタフェース１１を介してネットワーク上の外部装置に、または入出力インタフェース１２を介して表示デバイス４に出力する処理を行う。

（動作）
次に、以上のように構成された情報処理装置としての文書処理装置１による情報処理動作を説明する。図４はその処理手順と処理内容を示すフローチャートである。

はじめに、文書処理装置１は、秘匿化ルール取得部２１の制御の下、あらかじめ任意のタイミングで秘匿化ルールを取得し、取得した秘匿化ルールを秘匿化ルール記憶部３１に格納しているものとする。文書処理装置１は、秘匿化ルール取得部２１の制御の下、通信インタフェース１１を介してネットワーク上のサーバ等から、あらかじめ設定された秘匿化ルールを取得するように構成されてもよいし、入出力インタフェース１２を介して、ＵＳＢメモリなどの外部記憶媒体に記憶された情報またはオペレータが入力デバイス３に入力した情報を秘匿化ルールとして取得するように構成されてもよい。

文書処理装置１は、まずステップＳ１０１により、制御ユニット２０の制御の下、秘匿化処理を開始するトリガの有無を監視している。この状態で、例えば、オペレータ等が入力デバイス３を介して処理開始の指示を入力し、この指示を開始トリガとして受け取ると、文書処理装置１は以下の処理を実行する。

ステップＳ１０２において、文書処理装置１は、制御ユニット２０の制御の下、文書データ取得部２２により、通信インタフェース１１を介して音声情報処理装置２またはユーザ端末ＵＴから秘匿化処理の対象である文書データＤＤを取得し、文書データ記憶部３２に格納する。文書処理装置１は、ネットワーク上の他のサーバ等から処理対象である文書データＤＤを取得することも可能である。あるいは、文書処理装置１は、文書データ取得部２２の制御の下、入出力インタフェース１２を介して、ＵＳＢメモリなどの外部記憶媒体に記憶された情報またはオペレータが入力デバイス３に入力した情報を処理対象である文書データＤＤとして取得するように構成されてもよい。

次いでステップＳ１０３において、文書処理装置１は、制御ユニット２０の制御の下、センテンス分割部２３により、文書データ記憶部３２から文書データＤＤを読み出し、秘匿化ルール記憶部３１に格納された秘匿化ルールに基づいて、文書データＤＤに含まれるテキストを識別して、当該テキストを判定単位としてのセンテンスごとに分割する処理を行う。一実施形態では、秘匿化ルールは、センテンスの区切りが句点「。」であると指定するものであり、センテンス分割部２３は、句点「。」ごとにテキストを分割する処理を行う。センテンス分割部２３は、分割されたセンテンスを順次に秘匿対象判定部２４に渡す。文書データＤＤに含まれるテキストが秘匿化ルールに基づいて分割できない場合、センテンス分割部２３は、分割されていないテキストを判定単位のセンテンスとして秘匿対象判定部２４に渡す。

ステップＳ１０４において、文書処理装置１は、制御ユニット２０の制御の下、秘匿対象判定部２４により、秘匿化ルール記憶部３１に格納された秘匿化ルールに基づいて、判定単位としてのセンテンスごとに、当該センテンスが秘匿化の対象であるか否かを判定する。

ここで、特定のセンテンスが秘匿化の対象であるか否かの判定には、様々な方法を採用することができる。例えば、一実施形態では、あらかじめ機密情報に関わるキーワード（秘匿化キーワード）を登録した辞書を用意しておき、特定のセンテンス中に、当該辞書に含まれる秘匿化キーワードがどれだけ多く含まれるかを判定するように構成される。辞書は、秘匿化ルールの一部として秘匿化ルール記憶部３１に記憶されてもよいし、データメモリ３０内に辞書用の記憶部を設けてもよい。あるいは、文書処理装置１が、通信インタフェース１１を介してネットワークＮＷ上に構築された辞書データベース（図示せず）にアクセスすることによって、秘匿化キーワードを取得するようにしてもよい。

上記のような秘匿化キーワードを登録した辞書を用いる場合、例えば、秘匿対象判定部２４は、特定のセンテンス中に一定数以上の秘匿化キーワードが含まれる場合に、当該センテンスが秘匿化の対象であると判定することができる。または、秘匿対象判定部２４は、特定のセンテンス中に含まれる全ワードのうち一定割合以上の数のワードが秘匿化キーワードである場合に、当該センテンスが秘匿化の対象であると判定することもできる。

秘匿化キーワードとしては、例えば、人名、役職名、会社名、地名、製品名などの固有名詞や個人情報などを登録することもでき、あるいは「収益表」、「経営情報」、「人事異動」、「昇進」、「部外秘」、「機密事項」などの語を登録することも考えられる。秘匿対象判定部２４は、特定のセンテンスが秘匿化キーワードを１つでも含む場合に、そのセンテンスを秘匿化の対象であると判定することもできる。

あるいは、秘匿対象判定部２４は、文書データＤＤが話者（発言者）に関する情報を含む場合、特定の話者に関連付けられるセンテンスを秘匿化の対象であると判定することができる。例えば、ユーザ端末ＵＴを用いて作成された文書データＤＤ２には、文書の作成者（会議参加者Ｐなど）によって各センテンスに対して話者を識別する情報（名前、略称、ＩＤなど）が併記されていることがある。また、上記のような音声認識ＡＩを活用した音声認識エンジンを用いると、音声情報をテキスト化するだけでなく、話者を識別する情報まで文書データに組み込むことが可能な場合もある。このような場合に、秘匿対象判定部２４は、社長、人事部長、技術開発担当者など、秘匿化ルールによって指定された特定の話者に関連付けられるセンテンスを秘匿化の対象と判定することができる。

あるいは、秘匿対象判定部２４は、特定のセンテンス中に秘匿化を要することを示す語句（語または句）が含まれる場合に、当該センテンスを秘匿化の対象であると判定することができる。例えば、秘匿対象判定部２４は、あらかじめ該当表現を上記のような辞書に登録しておくことによって、またはＡＩをはじめとする言語解析技術の支援により、「ここからはオフレコで・・・」、「話が脱線しますが・・・」、「ここだけの話ですが・・・」などのワード（語）またはフレーズ（句）を含むセンテンスを識別し、秘匿化の対象と判定することができる。またこの場合、当該センテンスだけでなく、当該センテンスに先行するまたは後続する所定の数のセンテンスについても秘匿化の対象と判定するように秘匿化ルールを設定してもよい。またさらに、同一話者の発話内容であると識別される一連のセンテンスを秘匿化の対象と判定するようにしてもよい。さらに、「・・・ここまでは外部へは開示しないようにしてください。」などのフレーズを含むセンテンスを終了条件とするように、秘匿化処理の終了を示すフレーズを秘匿化ルールに設定してもよい。

さらに、秘匿化ルールは、秘匿対象判定部２４に、秘匿化の対象であると判定されたセンテンスに関し、さらにその内容の機密性の高さを表す機密レベルを判定させるものであってもよい。例えば、秘匿対象判定部２４は、秘匿化ルールに基づいて各センテンスの機密レベルを判定し、機密レベルが高いと判定されたセンテンスに対しては付加情報を付加することによって、他のセンテンスと区別できるようにすることができる。

上記ステップＳ１０４において、秘匿対象判定部２４により、特定のセンテンスが秘匿化の対象であると判定された場合、ステップＳ１０５に移行する。

ステップＳ１０５において、文書処理装置１は、制御ユニット２０の制御の下、秘匿化処理部２５により、秘匿化処理の対象と判定されたセンテンスに対して秘匿化ルールに基づき秘匿化処理を実行する。

秘匿化処理には、様々な方法を採用することができる。例えば、秘匿化処理部２５は、秘匿化処理の対象であるセンテンス中の文字をすべて特定の記号に置き換えるマスク処理を実行することができる。または、秘匿化処理部２５は、秘匿化処理の対象であるセンテンスに対して暗号化処理を実行することができる。あるいは、秘匿化処理部２５は、秘匿化処理の対象であるセンテンスを削除し、閲覧者からセンテンスの存在自体が知覚できないようにすることもできる。秘匿化処理は、元のセンテンスに復元可能な処理であってもよいし、復元不可能な処理であってもよい。

また、秘匿化処理部２５は、秘匿対象判定部２４によって判定された機密性の高さを表す機密レベルに応じて、秘匿化ルールに基づいて異なる秘匿化処理を実行することもできる。例えば、辞書に登録された秘匿化対象ワードを一定数以上含むセンテンスには、より高い機密レベルが判定されるようにしてもよい。あるいは、特定の個人名または特定のキーワードを含むセンテンスには、より高い機密レベルが判定されるようにしてもよい。

一実施形態では、秘匿化ルールは、秘匿化処理部２５に、機密レベルが低いセンテンスに対しては処理負荷の小さい暗号化スキームを用い、機密レベルが高いセンテンスに対してはより複雑な暗号化スキームを用いて秘匿化処理を実行させるように構成される。または、秘匿化ルールは、秘匿化処理部２５に、機密レベルが高いセンテンスに対しては復元不可能な秘匿化処理を実行させ、機密レベルが低いセンテンスに対しては復元可能な秘匿化処理を実行させるように構成されてもよい。あるいは、秘匿化ルールは、秘匿化処理部２５に、センテンスごとに機密レベルに応じて異なる暗号鍵を用いて秘匿化処理を実行させるように構成されることもできる。そして、この異なる暗号鍵を用いて秘匿化処理されたテキストは、閲覧者に応じてそれぞれアクセス権限が設定された異なる復号鍵によって復元可能となるようにすることができる。これにより、閲覧者ごとに利用可能な復号鍵の数または種類が異なるので、単一の処理済み文書データＭＤであっても、閲覧者ごとに閲覧可能な範囲を制御することが可能となる。

ステップＳ１０５において秘匿化処理を実行した後、文書処理装置１は、ステップＳ１０７に移行する。

一方、上記ステップＳ１０４において、秘匿対象判定部２４により、特定のセンテンスが秘匿化の対象ではないと判定された場合、ステップＳ１０６に移行する。

ステップＳ１０６において、文書処理装置１は、制御ユニット２０の制御の下、秘匿対象判定部２４により、当該センテンスに対して、ワード（語）単位で秘匿化処理の対象であるか否かをさらに判定する。なお、秘匿化処理の対象は、文字、記号、単語、句、節など、任意の単位であってよい。ステップＳ１０６において、秘匿対象判定部２４により秘匿化処理の対象であると判定された場合、文書処理装置１は、秘匿化処理部２５により、当該ワードに対して秘匿化処理を実行する。

一実施形態では、あらかじめ機密情報に関わるキーワード（秘匿化キーワード）を登録した辞書を用意しておき、秘匿化処理部２５が、センテンス中に当該辞書に含まれる秘匿化キーワードと一致するワードがあれば、そのワードに対して秘匿化処理を実行する。上記辞書は、ステップＳ１０４において特定のセンテンスが秘匿化の対象であるか否かを判定する際に使用した辞書と同一のものであっても異なるものであってもよい。また秘匿化処理は、上記ステップＳ１０５と同様に、様々な方法を用いて実行されてよい。またステップＳ１０６は省略されてもよい。

ステップＳ１０６においてセンテンス中に秘匿化キーワードが含まれない場合、文書処理装置１は、秘匿化処理を実行せずに次のステップＳ１０７に移行する。

ステップＳ１０７において、文書処理装置１は、制御ユニット２０の制御の下、対象とする文書データＤＤ中のすべてのセンテンスについて処理が終了したかどうかを判定する。未処理のセンテンスが含まれる場合、文書処理装置１は、ステップＳ１０４に戻って、秘匿化の対象であるか否かの判定と、ステップＳ１０５またはステップＳ１０６における秘匿化処理の実行とを繰り返す。ステップＳ１０７においてすべてのセンテンスについて処理が終了したと判定された場合、文書処理装置１は、ステップＳ１０８に移行する。

ステップＳ１０８において、文書処理装置１は、制御ユニット２０の制御の下、出力制御部２６により、秘匿化処理部２５による秘匿化処理後の情報を用いて処理済み文書データＭＤを生成し、出力する。一実施形態では、文書処理装置１は、出力制御部２６により、秘匿化処理を実行されたまたは実行されていない分割されたセンテンスを適切な順序で結合させることによって、処理済み文書データＭＤを生成し、出力する。出力制御部２６は、分割されたセンテンスを結合させるとき、元の文書データＤＤと同じ配置またはレイアウトになるように結合させてもよいし、異なる配置またはレイアウトになるように結合させてもよい。

（効果）
以上詳述したように、この発明の一実施形態では、文書データＤＤを処理する文書処理装置１において、文字情報からなるセンテンスを含む文書データＤＤを取得する文書データ取得部２２と、文書データＤＤをセンテンスに分割するセンテンス分割部２３と、文書データＤＤに含まれる分割されたセンテンスごとに、あらかじめ設定された秘匿化ルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定する秘匿対象判定部２４と、秘匿化の対象であると判定された場合に、当該センテンスに対して秘匿化処理を実行する秘匿化処理部２５と、秘匿化処理部２５によって秘匿化処理を実行されたセンテンスを含む処理済み文書データＭＤを出力する出力部とを具備するようにした。さらに、秘匿対象判定部２４により、秘匿化の対象でないと判定されたセンテンスについてもワード単位で秘匿化の対象であるか否かの判定を行い、秘匿化の対象であるワードについては、秘匿化処理部２５によってワード単位で適切な秘匿化処理が実行されるようにした。

これにより、音声データから音声認識技術を用いて自動生成された会議録の文書データＤＤ１や、会議参加者Ｐがユーザ端末ＵＴを用いて作成した文書データＤＤ２をもとに、秘匿化処理の対象であるセンテンスについてはセンテンス単位で適切な秘匿化処理が実行され、秘匿化処理の対象でないセンテンスについては、ワード単位で秘匿化されまたは元の文字情報が維持された、開示、共有または配信に適した処理済み文書データＭＤを容易に生成し出力することができる。

また、文書処理装置１は、上記秘匿化ルールに基づいて、センテンスが秘匿化の対象語を一定数または一定割合以上含むこと、センテンスが秘匿化を要することを示す語句を含むこと、またはセンテンスが特定の話者に関連付けられることなどを判定することによって、センテンスが秘匿化の対象であるか否かを判定することができる。このように、秘匿化ルールを適切に設定することにより、複雑な言語や文法の解析処理を要することなく、適切かつ容易に秘匿化処理を実行された開示用の処理済み文書データＭＤを得ることができる。

また、秘匿化ルールを適切に設定することによって、センテンスごとにその機密レベルに応じて異なる秘匿化処理が実行されるようにすることもできる。これにより、センテンスごとの機密性の高さに応じて処理負荷や処理時間が適切となる秘匿化処理を選択することができ、文書処理に係る処理コストの低減を図ることができる。

またさらに、秘匿化ルールの設定によって、機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理が実行されるようにすることもできる。これにより、単一の処理済み文書データＭＤであっても、鍵へのアクセス権や鍵の配布先を制御することで、容易に閲覧者ごとの開示範囲の制御が可能になる。例えば、復元に用いる鍵を、閲覧者の所属部署や役職に応じてアクセス権限の異なるファイル共有領域におくことによって、複数レベルの秘匿化処理を施された単一の処理済み文書データＭＤにより、複数の開示レベルを実現することができる。

会議録など、社員や共同開発メンバーなどの閲覧者に対して迅速に内容を開示したい場合がある。その一方で、会議録には、一定範囲の閲覧者にしか開示したくない内容が含まれることも多い。音声認識により会議録が自動的に作成される技術の進展がめざましいが、すべての会話が文字化されて配布用文書として扱われるのが不都合な場合もある。さらに、ある閲覧者グループにはこのレベルまで開示したいが、別の閲覧者グループには異なるレベルまでしか開示したくないなど、閲覧者によって異なるマスク処理を要する場合もある。しかし、このような処理を手作業で行うのはきわめて煩雑である。

上記実施形態に係る文書処理装置１によれば、会議録の文書データを共有したいとき、閲覧者グループごとに適切な秘匿化ルールを採用することによって、簡易な操作で閲覧者グループに対応する処理済み文書データＭＤを生成することができる。例えば、閲覧者のグループが社内の役員クラスであるのか、同じ部署の社員であるのか、他部署の社員であるのか、または社外の人間であるのかに応じて、異なる秘匿化ルールを設定することによって、同じ文書データＤＤから異なる開示レベルの処理済み文書データＭＤを容易に作成することができる。

また、上記実施形態に係る文書処理装置１によれば、センテンスごとに機密レベルに応じて異なる復号鍵で復元可能となるような異なる秘匿化処理を実行できるので、電子メールで配信する際にも閲覧者グループごとに異なる文書を送信する必要がなく、同一の文書であっても閲覧者ごとに異なる開示範囲を実現することができる。

また、「ここからはオフレコで・・・」など、特定のキーワード（音声コマンド）に応じてマスク処理が実行されるようにあらかじめ秘匿化ルールを設定しておくことにより、会議参加者Ｐは、すべての会話が会議録に記載され共有される心配をすることなく、音声コマンドを使用しながら自由な議論を行うことが可能となる。

すなわち、上記実施形態によれば、部長以上にはすべて開示するが他の社員には一定範囲をマスクしたい、会議参加者にはすべて開示するが非参加者には特定の範囲だけを開示したい、など、閲覧者または閲覧者グループに応じて開示範囲の異なる処理済み文書データＭＤを容易にかつ簡易に作成することが可能となる。

［他の実施形態］
なお、この発明は上記実施形態に限定されるものではない。
例えば、文書処理装置１は、音声情報処理装置２の機能を備えるものであってもよい。あるいは、文書処理装置１が備える各機能部を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。

また文書処理装置１による判定および秘匿化処理は、必ずしもセンテンス単位である必要はない。文字、単語、記号、文字列、文節、表題など、任意の単位に対して判定および秘匿化処理を実行するようにしてもよい。同様に、句点「。」やピリオド「．」で分割するだけでなく、読点「、」やカンマ「，」によって分割するように秘匿化ルールを設定することも可能である。

文書中にグラフ、図面、写真などのイメージデータが含まれる場合、文字情報に加えてイメージデータを秘匿化処理の単位として設定してもよい。この場合、秘匿化ルールは、すべてのイメージデータをマスクするように設定されてもよいし、画像解析の結果として特定の画像を含む場合にマスクするように設定されてもよいし、特定のキーワードに紐づけられたイメージデータをマスクするように設定されてもよい。

また、上記実施形態では、はじめにセンテンスごとに秘匿化処理の対象であるか否かの判定を行うものとして説明したが、文書処理装置１は、センテンス単位での判定および秘匿化処理の前に、キーワードを登録された辞書に基づいて文書データＤＤ中のすべてのキーワードをマスク処理するように構成されてもよい。そして、文書処理装置１は、センテンス単位またはパラグラフ単位でさらに秘匿化処理の対象であるか否かを判定し、各単位が一定数または一定割合以上のマスク済みキーワードを含む場合、当該センテンスまたはパラグラフ自体をさらにマスクまたは暗号化するようにしてもよい。

辞書または秘匿化ルールは、機械学習により学習／更新されるようにしてもよい。例えば、会議の属性（例えば、会議の議題、開催日時、場所、会議参加者の属性、参加人数など）と、登録された秘匿化キーワードとのセットを教師データとして用い、会議の属性を入力したときに秘匿化キーワードを出力するようなニューラルネットワークモデルを構築することができる。また、処理済み文書データＭＤに対してさらに手作業でマスク処理を追加した場合に、そのマスク処理に係る内容を学習させ、秘匿化ルールを更新できるようにしてもよい。例えば、話者が秘匿化を望んでいることを示すフレーズ、プライバシーやハラスメントに関わる用語または文脈、著作権や肖像権に関わるおそれのある情報等を学習させることも考えられる。

あるいは、文書処理装置１は、辞書または秘匿化ルールを使用せずに、会議の属性と特定のワードまたはセンテンスを秘匿化したかしなかったかの処理結果とを教師データとして学習させたニューラルネットワークや統計モデルを用いて、文書データを処理するように構成されてもよい。

また、秘匿化処理は、時限式の処理であってもよい。例えば、文書データが、特許出願前の技術内容や、事業提携先候補の企業情報など、一時的には秘密にしておきたいが、一定時間経過後には開示してもかまわない情報を含む場合がある。そのような場合に、秘匿化処理として、一定時間経過後にのみ復元可能となる時限式暗号化処理を採用することができる。あるいは、秘匿化処理として、一定時間経過後にマスクが消去される時限式マスク処理を採用することもできる。上記文書処理装置１にこのような時限式の秘匿化処理を採用することによって、一定時間経過後に開示が望まれる文書についても、当該時間経過後に復号鍵や開示用文書を別途配布する必要のない、適切に秘匿化処理された文書データを得ることができる。

処理前の文書データＤＤが話者を識別する話者識別情報を含む場合、この話者識別情報が処理済み文書データＭＤにも維持されるようにしてもよい。秘匿化処理が実行されたセンテンスについては、話者識別情報も秘匿化されるようにしてもよいし、話者識別情報だけ維持されるようにしてもよい。

これにより、例えば、処理済み文書データＭＤを再生する際に、再び音声情報処理装置２の支援を受けることによって、話者識別情報に基づき、当該話者の音声情報に基づいて合成された音声で再生するようにすることができる。すなわち、機密情報をマスクした処理済み文書データＭＤに基づいて、あたかも会議に参加しているかのような臨場感を閲覧者に与えることができる。

さらに、元の文書データＤＤに話者の情報が含まれる場合、話者ごとにキーワード群を紐づけたり、話者ごとに異なる秘匿化ルールを設定することもできる。

その他、処理済み文書データＭＤの出力形式等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

１…文書処理装置
２…音声情報処理装置
３…入力デバイス
４…表示デバイス
１１…通信インタフェース
１２…入出力インタフェース
２０…制御ユニット
２０Ａ…ハードウェアプロセッサ
２０Ｂ…プログラムメモリ
２１…秘匿化ルール取得部
２２…文書データ取得部
２３…センテンス分割部
２４…秘匿対象判定部
２５…秘匿化処理部
２６…出力制御部
３０…データメモリ
３１…秘匿化ルール記憶部
３２…文書データ記憶部
５０…バス

Claims

文字情報からなるセンテンスを含む第１の文書データを取得する文書データ取得部と、
前記第１の文書データをセンテンスに分割するセンテンス分割部と、
前記第１の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定された第１のルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定し、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第２のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する秘匿対象判定部と、
秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する秘匿化処理部と、
前記秘匿化処理部によって秘匿化処理を実行されたセンテンスを含む第２の文書データを出力する出力部と
を具備する情報処理装置。
前記秘匿対象判定部は、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合に、当該センテンスが秘匿化の対象であると判定する、請求項１に記載の情報処理装置。
前記秘匿対象判定部は、特定のセンテンスが特定の話者に関連付けられる場合に、当該センテンスが秘匿化の対象であると判定する、請求項１に記載の情報処理装置。
前記秘匿対象判定部は、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、前記特定のセンテンスと同一の話者の発話として識別される、前記特定のセンテンスに連続する一連のセンテンスを秘匿化の対象であると判定する、請求項１に記載の情報処理装置。
前記秘匿対象判定部は、前記あらかじめ設定されたルールに基づいて、前記第１の文書データに含まれる分割されたセンテンスごとに機密性の高さを表す機密レベルを判定し、
前記秘匿化処理部は、前記センテンスごとに、前記秘匿対象判定部によって判定された機密レベルに応じて異なる秘匿化処理を実行する、請求項１に記載の情報処理装置。
前記秘匿化処理部は、前記センテンスごとに、前記機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理を実行する、請求項５に記載の情報処理装置。
前記秘匿化処理部は、秘匿化の対象であると判定されたセンテンスに対して時限式の秘匿化処理を実行する、請求項１に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
文字情報からなるセンテンスを含む第１の文書データを取得する過程と、
前記第１の文書データをセンテンスに分割する過程と、
前記第１の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定されたルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第２のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する過程と、
秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する過程と、
前記秘匿化処理を実行する過程によって秘匿化処理を実行されたセンテンスを含む第２の文書データを出力する過程と
を具備する情報処理方法。
請求項１乃至請求項７の何れかに記載の装置による各処理をハードウェアプロセッサに実行させるプログラム。