JP7229821B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP7229821B2
JP7229821B2 JP2019049064A JP2019049064A JP7229821B2 JP 7229821 B2 JP7229821 B2 JP 7229821B2 JP 2019049064 A JP2019049064 A JP 2019049064A JP 2019049064 A JP2019049064 A JP 2019049064A JP 7229821 B2 JP7229821 B2 JP 7229821B2
Authority
JP
Japan
Prior art keywords
anonymization
sentence
processing
document data
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019049064A
Other languages
English (en)
Other versions
JP2020149628A (ja
Inventor
圭子 小島
宏成 高橋
裕美 金児
洋明 貞田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2019049064A priority Critical patent/JP7229821B2/ja
Priority to CN202080005003.8A priority patent/CN112654991A/zh
Priority to PCT/JP2020/010529 priority patent/WO2020189441A1/ja
Priority to US17/275,870 priority patent/US20220058277A1/en
Publication of JP2020149628A publication Critical patent/JP2020149628A/ja
Application granted granted Critical
Publication of JP7229821B2 publication Critical patent/JP7229821B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09CCIPHERING OR DECIPHERING APPARATUS FOR CRYPTOGRAPHIC OR OTHER PURPOSES INVOLVING THE NEED FOR SECRECY
    • G09C1/00Apparatus or methods whereby a given sequence of signs, e.g. an intelligible text, is transformed into an unintelligible sequence of signs by transposing the signs or groups of signs or by replacing them by others according to a predetermined system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2113Multi-level security, e.g. mandatory access control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Document Processing Apparatus (AREA)
  • Storage Device Security (AREA)

Description

この発明の一態様は、文書データを処理する情報処理装置、情報処理方法、およびプログラムに関する。
音声認識技術や言語解析技術を用いた、文書データの作成支援サービスが提案されている。例えば、音声認識エンジンを活用して、会議中の発言などの音声をテキスト化することにより、会議録作成を支援する技術が知られている(例えば、非特許文献1参照)。また、会議中の会話音声に対し、話者を識別する情報を付与する技術も知られている(例えば、非特許文献2,3参照)。
NTT東日本News Release、「会議録作成支援システム「VoiceAir」の提供開始について」、平成22年11月30日、インターネット<URL: https://www.ntt-east.co.jp/release/detail/20101130_01.html> 堀 貴明ほか、「みんなの会話を聞き取るコンピュータを目指して」、NTT技術ジャーナル2013.9、インターネット<http://www.ntt.co.jp/journal/1309/files/jn201309018.pdf> NTT R&D FORUM2015、音声コラボレーションV-15「リアルタイム会議音声認識技術(会議中の発言を記録し、効率的に振り返る)」、インターネット<http://www.ntt.co.jp/RD/active/201502/jp/ap/pdf/V-15_j.pdf>
しかし、会議録は、その性質上、多くの機密情報を含んでいる。また、会議中の会話を音声認識技術により自動的にテキスト化した場合、生成された文書は、会議参加者にのみ開示をとどめておきたい内容や、議題とは関わりのない脱線した話を含むこともある。
このような文書を複数人で閲覧可能に共有しようとする場合、あらかじめ開示したくない箇所の有無を確認し、開示したくない箇所は消去するなどの作業が必要となり、負担となっていた。また、役職や所属部署に応じて秘匿すべき箇所が異なる場合、例えば、役員クラスに配信する文書とその他の社員に配信する文書など、閲覧者グループごとに異なる文書データを作成しなければならず、非常に煩雑であった。
この発明は上記事情に着目してなされたもので、その目的とするところは、文書データ中の機密情報を簡易に秘匿化可能な技術を提供することにある。
上記課題を解決するためにこの発明の第1の態様は、文字情報からなるセンテンスを含む第1の文書データを取得する文書データ取得部と、上記第1の文書データをセンテンスに分割するセンテンス分割部と、上記第1の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定された第1のルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定し、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第2のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する秘匿対象判定部と、秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する秘匿化処理部と、上記秘匿化処理部によって秘匿化処理を実行されたセンテンスを含む第2の文書データを出力する出力部とを具備するようにしたものである。
この発明の第2の態様は、上記秘匿対象判定部が、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合に、当該センテンスが秘匿化の対象であると判定するようにしたものである。
この発明の第3の態様は、上記秘匿対象判定部が、特定のセンテンスが特定の話者に関連付けられる場合に、当該センテンスが秘匿化の対象であると判定するようにしたものである。
この発明の第4の態様は、上記秘匿対象判定部が、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、上記特定のセンテンスと同一の話者の発話として識別される、上記特定のセンテンスに連続する一連のセンテンスを秘匿化の対象であると判定するようにしたものである。
この発明の第5の態様は、上記秘匿対象判定部が、上記あらかじめ設定されたルールに基づいて、上記第1の文書データに含まれる分割されたセンテンスごとに機密性の高さを表す機密レベルを判定し、上記秘匿化処理部が、上記センテンスごとに、上記秘匿対象判定部によって判定された機密レベルに応じて異なる秘匿化処理を実行するようにしたものである。
この発明の第6の態様は、上記秘匿化処理部が、上記センテンスごとに、上記機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理を実行するようにしたものである。
この発明の第の態様は、上記秘匿化処理部が、秘匿化の対象であると判定されたセンテンスに対して時限式の秘匿化処理を実行するようにしたものである。
この発明の第1の態様によれば、文字情報からなるセンテンスを含む文書データに対して、あらかじめ設定された第1のルールに基づいて、センテンスごとに秘匿化の対象であるか否かが判定され、秘匿化の対象であると判定された場合にはそのセンテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理が実行され、秘匿化処理後の文書データが出力される。これにより秘匿化の対象であるセンテンスについてはセンテンス単位で適切な秘匿化処理が実行された、開示用の文書データを簡易に得ることができる。
また、秘匿化の対象でないと判定されたセンテンスについては、当該センテンスに含まれるワードごとに、あらかじめ設定された第2のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定し、秘匿化の対象であると判定されたワード単位で秘匿化処理が実行される。これにより、秘匿対象でないセンテンスについても、秘匿対象のワードを含む場合にはそのワード単位で適切に秘匿化された、開示用の文書データを得ることができる。
この発明の第2の態様によれば、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合、当該センテンスが秘匿化の対象であると判定され、秘匿化処理が実行される。これにより、複雑な解析処理を要することなく、センテンスに含まれる秘匿化の対象語の数または割合に応じてセンテンス単位で秘匿化処理が実行された、開示用の文書データを得ることができる。
この発明の第3の態様によれば、特定のセンテンスが特定の話者に関連付けられる場合、当該センテンスが秘匿化の対象であると判定され、秘匿化処理が実行される。これにより、例えば、経営者、人事関係者、技術開発担当者など、機密情報に関わる特定の話者が話した内容が秘匿化処理された、開示用の文書データを得ることができる。
この発明の第4の態様によれば、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、当該特定のセンテンスと同一の話者の発話として識別される、当該センテンスに連続する一連のセンテンスが秘匿化の対象であると判定され、一連のセンテンスに対して秘匿化処理が実行される。これにより、複雑な解析処理を要することなく、「他言無用でお願いしたいのですが・・・」「ここからはオフレコで・・・」など、話者が開示を望まないことを示すフレーズを特定のセンテンスが含む場合、同一の話者による発話の内容が秘匿化処理された、開示用の文書データを得ることができる。
この発明の第5の態様によれば、文書データに含まれるセンテンスごとに機密性の高さを表す機密レベルが判定され、判定された機密レベルに応じて異なる秘匿化処理が実行される。これにより、機密レベルの低いセンテンスに対しては処理負荷の小さい暗号化処理を採用し、機密レベルの高いセンテンスに対してはより複雑な暗号化処理を採用するなど、閲覧者や文書の性質に応じて適切に処理の高速化および負荷軽減を図ることができる。
この発明の第6の態様によれば、センテンスごとに、機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理が実行される。これにより、復元用の鍵へのアクセス権を設定することによって、または鍵の配布先を制御することによって、単一の開示用文書データで、複数のレベルの情報開示を実現することができる。
この発明の第の態様によれば、秘匿化の対象であると判定されたセンテンスに対して、時限式の秘匿化処理が実行される。これにより、例えば一定時間経過後に開示が望まれる文書に対して、当該時間経過後に復号鍵や開示用文書を別途配布する必要のない、適切な秘匿化処理を実行することができる。
すなわちこの発明の各態様によれば、文書データ中の機密情報を簡易に秘匿化可能な技術を提供することができる。
図1は、この発明の一実施形態に係る文書処理装置を備えたシステムの全体構成を示す図である。 図2は、この発明の一実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。 図3は、この発明の一実施形態に係る文書処理装置のソフトウェア構成を示すブロック図である。 図4は、図3に示した文書処理装置による処理手順と処理内容を示すフローチャートである。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[一実施形態]
(構成)
(1)システム
図1は、この発明の一実施形態に係る情報処理装置としての文書処理装置1を備えたシステムの全体構成の一例を示す図である。
このシステムは、文書処理装置1を例えばWeb上またはクラウド上に備えている。そして、文書処理装置1を、会議室CR内の音声を収集して音声データを出力可能な音声情報収集装置VR、音声データを文書データに変換可能な音声情報処理装置2、および文書データを出力可能なユーザ端末UTとの間で、ネットワークNW1,NW2を介して通信可能にしている。
通信ネットワークNW1,NW2(以下、まとめて「通信ネットワークNW」ともいう)は、同じネットワークであっても異なるネットワークであってもよく、例えば、中継網と、この中継網に対しアクセスするための複数のアクセス網とから構成される。中継網としては、一般的なインターネットのような公衆網や限られた機器などからのみアクセスできるよう制御された閉域網が用いられる。アクセス網としては、例えば、無線LAN(Local Area Network)、携帯電話網、有線電話網、FTTH(Fiber To The Home)、CATV(Cable Television)網が用いられる。
会議室CR内に設置されたマイクやボイスレコーダ等の音声情報収集装置VRは、会議参加者P1,P2,P3,P4,・・・(以下、まとめて「会議参加者P」という)の発話を音声情報として収集し、音声データVDを生成して、通信ネットワークNW1を介して音声情報処理装置2に送信する。
音声情報処理装置2は、例えばWeb上またはクラウド上に配置された、あらかじめ蓄積された言語辞書等を通じて音声情報を文字情報(テキスト情報)に変換可能な任意の装置である。音声情報処理装置2は、例えば、音声認識AIを用いた言語解析サービスを利用するものであってもよい(NTTコミュニケーションズ株式会社News Release、「世界最大級210万語超の日本語辞書を用いた自然言語解析APIの本格提供を開始」、2018年9月5日、https://www.ntt.com/about-us/press-releases/news/article/2018/0905.html参照)。音声情報処理装置2は、音声情報収集装置VRにより送信された音声データVDを、通信ネットワークNW1を介して受信し、音声データVDに含まれる音声情報を文字情報に変換し、文字情報を含む文書データDD1を生成して、通信ネットワークNW2を介して文書処理装置1へと送信する処理を行う。
文書処理装置1は、音声情報処理装置2により送信された文書データDD1を受信し、受信した文書データDD1に対して必要な秘匿化処理を実行して、マスクや暗号化等の秘匿化処理を施された処理済み文書データMD1を生成し出力する。
あるいは、文書処理装置1は、会議参加者Pがパーソナルコンピュータ等のユーザ端末UTを用いて作成した文書データDD2をもとに処理を実行することもできる。文書データDD2は、文字情報を含む任意のデータ形式であってよい。文字情報は、文字、記号、文字列、記号列、文、文章等を含み、以下では、テキストまたはテキスト情報ともいう。文書データDD2はまた、文字情報以外に、見出しや段落を表すレイアウト情報や、図形、グラフ、写真などの画像情報、または動画情報を含むものであってもよい。
文書処理装置1は、例えば通信ネットワークNW1を介してユーザ端末UTにより送信された文書データDD2を受け取り、必要な秘匿化処理を実行して、マスクや暗号化等の秘匿化処理を施された処理済み文書データMD2を生成し出力することができる。
このように、一実施形態に係る文書処理装置1は、第1の文書データとしての文書データDD1またはDD2(以下、まとめて「文書データDD」という)を受け取り、当該文書データDDに対して秘匿化処理を実行して、第2の文書データとしての処理済み文書データMD1またはMD2(以下、まとめて「処理済み文書データMD」という)を出力する。処理済み文書データMDは、秘匿化の対象箇所が閲覧できないように処理されている。図1の例では、処理済み文書データMDは、出席者や欠席者といった個人名に係る記載をはじめ、秘匿化処理の対象と判定された箇所が黒塗りによってマスクされている。ただし、文書処理装置1によって実行される秘匿化処理は、このようなマスク処理に限るものではなく、種々の方法による暗号化をはじめ、一般名称への置換、記号列への変換、または該当箇所の削除など、任意の処理を用いることができる。また、秘匿化処理は、元の文書データへと復元可能な処理であってもよいし、復元不可能な処理であってもよい。
(2)文書処理装置
(2-1)ハードウェア構成
図2は、この発明の一実施形態に係る文書処理装置1のハードウェア構成の一例を示すブロック図である。
文書処理装置1は、例えばサーバコンピュータまたはパーソナルコンピュータにより構成され、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサ20Aを有する。そして、このハードウェアプロセッサに対し、プログラムメモリ20B、データメモリ30、通信インタフェース11、および入出力インタフェース12を、バス50を介して接続したものとなっている。
入出力インタフェース12には、文書処理装置1に付設される入力デバイス3および表示デバイス4が接続される。入出力インタフェース12は、キーボードやタッチパネル、マウス等の入力デバイス3を通じてオペレータが入力した操作データを取り込むとともに、表示データを液晶または有機EL(Electro Luminescence)等を用いた表示デバイス4へ出力して表示させる処理を行う。なお、入力デバイス3および表示デバイス4は文書処理装置1に内蔵されたデバイスを使用してもよく、また通信ネットワークNWを介して通信可能な他の情報端末の入力デバイスおよび表示デバイスを使用してもよい。
通信インタフェース11は、例えば1つ以上の有線または無線の通信インタフェースユニットを含んでおり、外部機器との間で情報の送受信を可能にする。有線インタフェースとしては、例えば有線LANが使用され、また無線インタフェースとしては、例えば無線LANやBluetooth(登録商標)などの小電力無線データ通信規格を採用したインタフェースが使用される。通信インタフェース11は、ユーザ端末UTや音声情報処理装置2との間で、通信ネットワークNWにより規定される通信プロトコルにしたがいデータ伝送を行う。
プログラムメモリ20Bは、記憶媒体として、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM等の不揮発性メモリとを組み合わせて使用したもので、一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。
データメモリ30は、記憶媒体として、例えば、HDDまたはSSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリとを組み合わせて使用したもので、処理を行う過程で取得および作成された各種データを記憶するために用いられる。
(2-2)ソフトウェア構成
図3は、この発明の一実施形態に係る文書処理装置1のソフトウェア構成を、図2に示したハードウェア構成と関連付けて示したブロック図である。
データメモリ30の記憶領域には、秘匿化ルール記憶部31と、文書データ記憶部32とが設けられている。
秘匿化ルール記憶部31は、秘匿化処理に関するあらかじめ設定されたルールを記憶するために用いられる。
文書データ記憶部32は、処理対象の文書データを記憶するために用いられる。
ただし、記憶部31~32は必須の構成ではなく、例えば、USBメモリなどの外付け記憶媒体や、クラウドに配置されたデータベースサーバ等の記憶装置に設けられたものであってもよい。
制御ユニット20は、上記ハードウェアプロセッサ20Aと、上記プログラムメモリ20Bとから構成され、ソフトウェアによる処理機能部として、秘匿化ルール取得部21と、文書データ取得部22と、センテンス分割部23と、秘匿対象判定部24と、秘匿化処理部25と、出力制御部26とを備えている。これらの処理機能部は、いずれもプログラムメモリ20Bに格納されたプログラムを、上記ハードウェアプロセッサ20Aに実行させることにより実現される。制御ユニット20は、また、ASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。
秘匿化ルール取得部21は、通信インタフェース11を介してネットワーク上のサーバ等から、あらかじめ設定された秘匿化ルールを取得し、秘匿化ルール記憶部31に格納する処理を行う。ここで、秘匿化ルールは、機密情報の秘匿化処理に関する様々なルールを含み得る。例えば、秘匿化ルールは、文書データの分割単位としてのセンテンスの定義、特定のセンテンスが秘匿化の対象であるか否かの判定に関する基準、特定のワードが秘匿化の対象であるか否かの判定に関する基準、秘匿化の対象であるセンテンスまたはワードの機密性の高さに関する基準、および秘匿化処理の方法を指定する情報を含むことができる。なお、秘匿化ルール取得部21は必須の構成ではなく、秘匿化ルールは秘匿化ルール記憶部31にあらかじめ格納されたものであってもよい。
文書データ取得部22は、通信インタフェース11を介して音声情報処理装置2またはユーザ端末UTから処理対象である文書データDDを取得し、文書データ記憶部32に格納する処理を行う。
センテンス分割部23は、文書データ記憶部32から文書データDDを読み出し、秘匿化ルール記憶部31に格納された秘匿化ルールに基づいて、文書データDDに含まれる文字情報を秘匿化の判定単位としてのセンテンスごとに分割する処理を行う。ここで、センテンスとは、句点「。」や、ピリオド(ドット)「.」によって区切ることのできる文、または複数の文を含む文章、段落(パラグラフ)、またはタイトルや見出しのようにサイズや配置等によって他のテキスト部分と区別される部分など、1以上の単語(ワード)を含む任意のテキスト単位を指す。例えば、センテンス分割部23は、句点「。」をセンテンスの区切りとして識別し、テキストをセンテンスごとに分割する。
秘匿対象判定部24は、秘匿化ルール記憶部31に格納された秘匿化ルールに基づいて、分割された各センテンスが秘匿化処理の対象であるか否かを判定する処理を行う。
秘匿化処理部25は、秘匿化ルール記憶部31に格納された秘匿化ルールに基づいて、文書データDDに含まれる文字情報を秘匿化する処理を行う。
出力制御部26は、秘匿化処理部25による秘匿化処理後の情報を用いて処理済み文書データMDを生成し、通信インタフェース11を介してネットワーク上の外部装置に、または入出力インタフェース12を介して表示デバイス4に出力する処理を行う。
(動作)
次に、以上のように構成された情報処理装置としての文書処理装置1による情報処理動作を説明する。図4はその処理手順と処理内容を示すフローチャートである。
はじめに、文書処理装置1は、秘匿化ルール取得部21の制御の下、あらかじめ任意のタイミングで秘匿化ルールを取得し、取得した秘匿化ルールを秘匿化ルール記憶部31に格納しているものとする。文書処理装置1は、秘匿化ルール取得部21の制御の下、通信インタフェース11を介してネットワーク上のサーバ等から、あらかじめ設定された秘匿化ルールを取得するように構成されてもよいし、入出力インタフェース12を介して、USBメモリなどの外部記憶媒体に記憶された情報またはオペレータが入力デバイス3に入力した情報を秘匿化ルールとして取得するように構成されてもよい。
文書処理装置1は、まずステップS101により、制御ユニット20の制御の下、秘匿化処理を開始するトリガの有無を監視している。この状態で、例えば、オペレータ等が入力デバイス3を介して処理開始の指示を入力し、この指示を開始トリガとして受け取ると、文書処理装置1は以下の処理を実行する。
ステップS102において、文書処理装置1は、制御ユニット20の制御の下、文書データ取得部22により、通信インタフェース11を介して音声情報処理装置2またはユーザ端末UTから秘匿化処理の対象である文書データDDを取得し、文書データ記憶部32に格納する。文書処理装置1は、ネットワーク上の他のサーバ等から処理対象である文書データDDを取得することも可能である。あるいは、文書処理装置1は、文書データ取得部22の制御の下、入出力インタフェース12を介して、USBメモリなどの外部記憶媒体に記憶された情報またはオペレータが入力デバイス3に入力した情報を処理対象である文書データDDとして取得するように構成されてもよい。
次いでステップS103において、文書処理装置1は、制御ユニット20の制御の下、センテンス分割部23により、文書データ記憶部32から文書データDDを読み出し、秘匿化ルール記憶部31に格納された秘匿化ルールに基づいて、文書データDDに含まれるテキストを識別して、当該テキストを判定単位としてのセンテンスごとに分割する処理を行う。一実施形態では、秘匿化ルールは、センテンスの区切りが句点「。」であると指定するものであり、センテンス分割部23は、句点「。」ごとにテキストを分割する処理を行う。センテンス分割部23は、分割されたセンテンスを順次に秘匿対象判定部24に渡す。文書データDDに含まれるテキストが秘匿化ルールに基づいて分割できない場合、センテンス分割部23は、分割されていないテキストを判定単位のセンテンスとして秘匿対象判定部24に渡す。
ステップS104において、文書処理装置1は、制御ユニット20の制御の下、秘匿対象判定部24により、秘匿化ルール記憶部31に格納された秘匿化ルールに基づいて、判定単位としてのセンテンスごとに、当該センテンスが秘匿化の対象であるか否かを判定する。
ここで、特定のセンテンスが秘匿化の対象であるか否かの判定には、様々な方法を採用することができる。例えば、一実施形態では、あらかじめ機密情報に関わるキーワード(秘匿化キーワード)を登録した辞書を用意しておき、特定のセンテンス中に、当該辞書に含まれる秘匿化キーワードがどれだけ多く含まれるかを判定するように構成される。辞書は、秘匿化ルールの一部として秘匿化ルール記憶部31に記憶されてもよいし、データメモリ30内に辞書用の記憶部を設けてもよい。あるいは、文書処理装置1が、通信インタフェース11を介してネットワークNW上に構築された辞書データベース(図示せず)にアクセスすることによって、秘匿化キーワードを取得するようにしてもよい。
上記のような秘匿化キーワードを登録した辞書を用いる場合、例えば、秘匿対象判定部24は、特定のセンテンス中に一定数以上の秘匿化キーワードが含まれる場合に、当該センテンスが秘匿化の対象であると判定することができる。または、秘匿対象判定部24は、特定のセンテンス中に含まれる全ワードのうち一定割合以上の数のワードが秘匿化キーワードである場合に、当該センテンスが秘匿化の対象であると判定することもできる。
秘匿化キーワードとしては、例えば、人名、役職名、会社名、地名、製品名などの固有名詞や個人情報などを登録することもでき、あるいは「収益表」、「経営情報」、「人事異動」、「昇進」、「部外秘」、「機密事項」などの語を登録することも考えられる。秘匿対象判定部24は、特定のセンテンスが秘匿化キーワードを1つでも含む場合に、そのセンテンスを秘匿化の対象であると判定することもできる。
あるいは、秘匿対象判定部24は、文書データDDが話者(発言者)に関する情報を含む場合、特定の話者に関連付けられるセンテンスを秘匿化の対象であると判定することができる。例えば、ユーザ端末UTを用いて作成された文書データDD2には、文書の作成者(会議参加者Pなど)によって各センテンスに対して話者を識別する情報(名前、略称、IDなど)が併記されていることがある。また、上記のような音声認識AIを活用した音声認識エンジンを用いると、音声情報をテキスト化するだけでなく、話者を識別する情報まで文書データに組み込むことが可能な場合もある。このような場合に、秘匿対象判定部24は、社長、人事部長、技術開発担当者など、秘匿化ルールによって指定された特定の話者に関連付けられるセンテンスを秘匿化の対象と判定することができる。
あるいは、秘匿対象判定部24は、特定のセンテンス中に秘匿化を要することを示す語句(語または句)が含まれる場合に、当該センテンスを秘匿化の対象であると判定することができる。例えば、秘匿対象判定部24は、あらかじめ該当表現を上記のような辞書に登録しておくことによって、またはAIをはじめとする言語解析技術の支援により、「ここからはオフレコで・・・」、「話が脱線しますが・・・」、「ここだけの話ですが・・・」などのワード(語)またはフレーズ(句)を含むセンテンスを識別し、秘匿化の対象と判定することができる。またこの場合、当該センテンスだけでなく、当該センテンスに先行するまたは後続する所定の数のセンテンスについても秘匿化の対象と判定するように秘匿化ルールを設定してもよい。またさらに、同一話者の発話内容であると識別される一連のセンテンスを秘匿化の対象と判定するようにしてもよい。さらに、「・・・ここまでは外部へは開示しないようにしてください。」などのフレーズを含むセンテンスを終了条件とするように、秘匿化処理の終了を示すフレーズを秘匿化ルールに設定してもよい。
さらに、秘匿化ルールは、秘匿対象判定部24に、秘匿化の対象であると判定されたセンテンスに関し、さらにその内容の機密性の高さを表す機密レベルを判定させるものであってもよい。例えば、秘匿対象判定部24は、秘匿化ルールに基づいて各センテンスの機密レベルを判定し、機密レベルが高いと判定されたセンテンスに対しては付加情報を付加することによって、他のセンテンスと区別できるようにすることができる。
上記ステップS104において、秘匿対象判定部24により、特定のセンテンスが秘匿化の対象であると判定された場合、ステップS105に移行する。
ステップS105において、文書処理装置1は、制御ユニット20の制御の下、秘匿化処理部25により、秘匿化処理の対象と判定されたセンテンスに対して秘匿化ルールに基づき秘匿化処理を実行する。
秘匿化処理には、様々な方法を採用することができる。例えば、秘匿化処理部25は、秘匿化処理の対象であるセンテンス中の文字をすべて特定の記号に置き換えるマスク処理を実行することができる。または、秘匿化処理部25は、秘匿化処理の対象であるセンテンスに対して暗号化処理を実行することができる。あるいは、秘匿化処理部25は、秘匿化処理の対象であるセンテンスを削除し、閲覧者からセンテンスの存在自体が知覚できないようにすることもできる。秘匿化処理は、元のセンテンスに復元可能な処理であってもよいし、復元不可能な処理であってもよい。
また、秘匿化処理部25は、秘匿対象判定部24によって判定された機密性の高さを表す機密レベルに応じて、秘匿化ルールに基づいて異なる秘匿化処理を実行することもできる。例えば、辞書に登録された秘匿化対象ワードを一定数以上含むセンテンスには、より高い機密レベルが判定されるようにしてもよい。あるいは、特定の個人名または特定のキーワードを含むセンテンスには、より高い機密レベルが判定されるようにしてもよい。
一実施形態では、秘匿化ルールは、秘匿化処理部25に、機密レベルが低いセンテンスに対しては処理負荷の小さい暗号化スキームを用い、機密レベルが高いセンテンスに対してはより複雑な暗号化スキームを用いて秘匿化処理を実行させるように構成される。または、秘匿化ルールは、秘匿化処理部25に、機密レベルが高いセンテンスに対しては復元不可能な秘匿化処理を実行させ、機密レベルが低いセンテンスに対しては復元可能な秘匿化処理を実行させるように構成されてもよい。あるいは、秘匿化ルールは、秘匿化処理部25に、センテンスごとに機密レベルに応じて異なる暗号鍵を用いて秘匿化処理を実行させるように構成されることもできる。そして、この異なる暗号鍵を用いて秘匿化処理されたテキストは、閲覧者に応じてそれぞれアクセス権限が設定された異なる復号鍵によって復元可能となるようにすることができる。これにより、閲覧者ごとに利用可能な復号鍵の数または種類が異なるので、単一の処理済み文書データMDであっても、閲覧者ごとに閲覧可能な範囲を制御することが可能となる。
ステップS105において秘匿化処理を実行した後、文書処理装置1は、ステップS107に移行する。
一方、上記ステップS104において、秘匿対象判定部24により、特定のセンテンスが秘匿化の対象ではないと判定された場合、ステップS106に移行する。
ステップS106において、文書処理装置1は、制御ユニット20の制御の下、秘匿対象判定部24により、当該センテンスに対して、ワード(語)単位で秘匿化処理の対象であるか否かをさらに判定する。なお、秘匿化処理の対象は、文字、記号、単語、句、節など、任意の単位であってよい。ステップS106において、秘匿対象判定部24により秘匿化処理の対象であると判定された場合、文書処理装置1は、秘匿化処理部25により、当該ワードに対して秘匿化処理を実行する。
一実施形態では、あらかじめ機密情報に関わるキーワード(秘匿化キーワード)を登録した辞書を用意しておき、秘匿化処理部25が、センテンス中に当該辞書に含まれる秘匿化キーワードと一致するワードがあれば、そのワードに対して秘匿化処理を実行する。上記辞書は、ステップS104において特定のセンテンスが秘匿化の対象であるか否かを判定する際に使用した辞書と同一のものであっても異なるものであってもよい。また秘匿化処理は、上記ステップS105と同様に、様々な方法を用いて実行されてよい。またステップS106は省略されてもよい。
ステップS106においてセンテンス中に秘匿化キーワードが含まれない場合、文書処理装置1は、秘匿化処理を実行せずに次のステップS107に移行する。
ステップS107において、文書処理装置1は、制御ユニット20の制御の下、対象とする文書データDD中のすべてのセンテンスについて処理が終了したかどうかを判定する。未処理のセンテンスが含まれる場合、文書処理装置1は、ステップS104に戻って、秘匿化の対象であるか否かの判定と、ステップS105またはステップS106における秘匿化処理の実行とを繰り返す。ステップS107においてすべてのセンテンスについて処理が終了したと判定された場合、文書処理装置1は、ステップS108に移行する。
ステップS108において、文書処理装置1は、制御ユニット20の制御の下、出力制御部26により、秘匿化処理部25による秘匿化処理後の情報を用いて処理済み文書データMDを生成し、出力する。一実施形態では、文書処理装置1は、出力制御部26により、秘匿化処理を実行されたまたは実行されていない分割されたセンテンスを適切な順序で結合させることによって、処理済み文書データMDを生成し、出力する。出力制御部26は、分割されたセンテンスを結合させるとき、元の文書データDDと同じ配置またはレイアウトになるように結合させてもよいし、異なる配置またはレイアウトになるように結合させてもよい。
(効果)
以上詳述したように、この発明の一実施形態では、文書データDDを処理する文書処理装置1において、文字情報からなるセンテンスを含む文書データDDを取得する文書データ取得部22と、文書データDDをセンテンスに分割するセンテンス分割部23と、文書データDDに含まれる分割されたセンテンスごとに、あらかじめ設定された秘匿化ルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定する秘匿対象判定部24と、秘匿化の対象であると判定された場合に、当該センテンスに対して秘匿化処理を実行する秘匿化処理部25と、秘匿化処理部25によって秘匿化処理を実行されたセンテンスを含む処理済み文書データMDを出力する出力部とを具備するようにした。さらに、秘匿対象判定部24により、秘匿化の対象でないと判定されたセンテンスについてもワード単位で秘匿化の対象であるか否かの判定を行い、秘匿化の対象であるワードについては、秘匿化処理部25によってワード単位で適切な秘匿化処理が実行されるようにした。
これにより、音声データから音声認識技術を用いて自動生成された会議録の文書データDD1や、会議参加者Pがユーザ端末UTを用いて作成した文書データDD2をもとに、秘匿化処理の対象であるセンテンスについてはセンテンス単位で適切な秘匿化処理が実行され、秘匿化処理の対象でないセンテンスについては、ワード単位で秘匿化されまたは元の文字情報が維持された、開示、共有または配信に適した処理済み文書データMDを容易に生成し出力することができる。
また、文書処理装置1は、上記秘匿化ルールに基づいて、センテンスが秘匿化の対象語を一定数または一定割合以上含むこと、センテンスが秘匿化を要することを示す語句を含むこと、またはセンテンスが特定の話者に関連付けられることなどを判定することによって、センテンスが秘匿化の対象であるか否かを判定することができる。このように、秘匿化ルールを適切に設定することにより、複雑な言語や文法の解析処理を要することなく、適切かつ容易に秘匿化処理を実行された開示用の処理済み文書データMDを得ることができる。
また、秘匿化ルールを適切に設定することによって、センテンスごとにその機密レベルに応じて異なる秘匿化処理が実行されるようにすることもできる。これにより、センテンスごとの機密性の高さに応じて処理負荷や処理時間が適切となる秘匿化処理を選択することができ、文書処理に係る処理コストの低減を図ることができる。
またさらに、秘匿化ルールの設定によって、機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理が実行されるようにすることもできる。これにより、単一の処理済み文書データMDであっても、鍵へのアクセス権や鍵の配布先を制御することで、容易に閲覧者ごとの開示範囲の制御が可能になる。例えば、復元に用いる鍵を、閲覧者の所属部署や役職に応じてアクセス権限の異なるファイル共有領域におくことによって、複数レベルの秘匿化処理を施された単一の処理済み文書データMDにより、複数の開示レベルを実現することができる。
会議録など、社員や共同開発メンバーなどの閲覧者に対して迅速に内容を開示したい場合がある。その一方で、会議録には、一定範囲の閲覧者にしか開示したくない内容が含まれることも多い。音声認識により会議録が自動的に作成される技術の進展がめざましいが、すべての会話が文字化されて配布用文書として扱われるのが不都合な場合もある。さらに、ある閲覧者グループにはこのレベルまで開示したいが、別の閲覧者グループには異なるレベルまでしか開示したくないなど、閲覧者によって異なるマスク処理を要する場合もある。しかし、このような処理を手作業で行うのはきわめて煩雑である。
上記実施形態に係る文書処理装置1によれば、会議録の文書データを共有したいとき、閲覧者グループごとに適切な秘匿化ルールを採用することによって、簡易な操作で閲覧者グループに対応する処理済み文書データMDを生成することができる。例えば、閲覧者のグループが社内の役員クラスであるのか、同じ部署の社員であるのか、他部署の社員であるのか、または社外の人間であるのかに応じて、異なる秘匿化ルールを設定することによって、同じ文書データDDから異なる開示レベルの処理済み文書データMDを容易に作成することができる。
また、上記実施形態に係る文書処理装置1によれば、センテンスごとに機密レベルに応じて異なる復号鍵で復元可能となるような異なる秘匿化処理を実行できるので、電子メールで配信する際にも閲覧者グループごとに異なる文書を送信する必要がなく、同一の文書であっても閲覧者ごとに異なる開示範囲を実現することができる。
また、「ここからはオフレコで・・・」など、特定のキーワード(音声コマンド)に応じてマスク処理が実行されるようにあらかじめ秘匿化ルールを設定しておくことにより、会議参加者Pは、すべての会話が会議録に記載され共有される心配をすることなく、音声コマンドを使用しながら自由な議論を行うことが可能となる。
すなわち、上記実施形態によれば、部長以上にはすべて開示するが他の社員には一定範囲をマスクしたい、会議参加者にはすべて開示するが非参加者には特定の範囲だけを開示したい、など、閲覧者または閲覧者グループに応じて開示範囲の異なる処理済み文書データMDを容易にかつ簡易に作成することが可能となる。
[他の実施形態]
なお、この発明は上記実施形態に限定されるものではない。
例えば、文書処理装置1は、音声情報処理装置2の機能を備えるものであってもよい。あるいは、文書処理装置1が備える各機能部を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。
また文書処理装置1による判定および秘匿化処理は、必ずしもセンテンス単位である必要はない。文字、単語、記号、文字列、文節、表題など、任意の単位に対して判定および秘匿化処理を実行するようにしてもよい。同様に、句点「。」やピリオド「.」で分割するだけでなく、読点「、」やカンマ「,」によって分割するように秘匿化ルールを設定することも可能である。
文書中にグラフ、図面、写真などのイメージデータが含まれる場合、文字情報に加えてイメージデータを秘匿化処理の単位として設定してもよい。この場合、秘匿化ルールは、すべてのイメージデータをマスクするように設定されてもよいし、画像解析の結果として特定の画像を含む場合にマスクするように設定されてもよいし、特定のキーワードに紐づけられたイメージデータをマスクするように設定されてもよい。
また、上記実施形態では、はじめにセンテンスごとに秘匿化処理の対象であるか否かの判定を行うものとして説明したが、文書処理装置1は、センテンス単位での判定および秘匿化処理の前に、キーワードを登録された辞書に基づいて文書データDD中のすべてのキーワードをマスク処理するように構成されてもよい。そして、文書処理装置1は、センテンス単位またはパラグラフ単位でさらに秘匿化処理の対象であるか否かを判定し、各単位が一定数または一定割合以上のマスク済みキーワードを含む場合、当該センテンスまたはパラグラフ自体をさらにマスクまたは暗号化するようにしてもよい。
辞書または秘匿化ルールは、機械学習により学習/更新されるようにしてもよい。例えば、会議の属性(例えば、会議の議題、開催日時、場所、会議参加者の属性、参加人数など)と、登録された秘匿化キーワードとのセットを教師データとして用い、会議の属性を入力したときに秘匿化キーワードを出力するようなニューラルネットワークモデルを構築することができる。また、処理済み文書データMDに対してさらに手作業でマスク処理を追加した場合に、そのマスク処理に係る内容を学習させ、秘匿化ルールを更新できるようにしてもよい。例えば、話者が秘匿化を望んでいることを示すフレーズ、プライバシーやハラスメントに関わる用語または文脈、著作権や肖像権に関わるおそれのある情報等を学習させることも考えられる。
あるいは、文書処理装置1は、辞書または秘匿化ルールを使用せずに、会議の属性と特定のワードまたはセンテンスを秘匿化したかしなかったかの処理結果とを教師データとして学習させたニューラルネットワークや統計モデルを用いて、文書データを処理するように構成されてもよい。
また、秘匿化処理は、時限式の処理であってもよい。例えば、文書データが、特許出願前の技術内容や、事業提携先候補の企業情報など、一時的には秘密にしておきたいが、一定時間経過後には開示してもかまわない情報を含む場合がある。そのような場合に、秘匿化処理として、一定時間経過後にのみ復元可能となる時限式暗号化処理を採用することができる。あるいは、秘匿化処理として、一定時間経過後にマスクが消去される時限式マスク処理を採用することもできる。上記文書処理装置1にこのような時限式の秘匿化処理を採用することによって、一定時間経過後に開示が望まれる文書についても、当該時間経過後に復号鍵や開示用文書を別途配布する必要のない、適切に秘匿化処理された文書データを得ることができる。
処理前の文書データDDが話者を識別する話者識別情報を含む場合、この話者識別情報が処理済み文書データMDにも維持されるようにしてもよい。秘匿化処理が実行されたセンテンスについては、話者識別情報も秘匿化されるようにしてもよいし、話者識別情報だけ維持されるようにしてもよい。
これにより、例えば、処理済み文書データMDを再生する際に、再び音声情報処理装置2の支援を受けることによって、話者識別情報に基づき、当該話者の音声情報に基づいて合成された音声で再生するようにすることができる。すなわち、機密情報をマスクした処理済み文書データMDに基づいて、あたかも会議に参加しているかのような臨場感を閲覧者に与えることができる。
さらに、元の文書データDDに話者の情報が含まれる場合、話者ごとにキーワード群を紐づけたり、話者ごとに異なる秘匿化ルールを設定することもできる。
その他、処理済み文書データMDの出力形式等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
1…文書処理装置
2…音声情報処理装置
3…入力デバイス
4…表示デバイス
11…通信インタフェース
12…入出力インタフェース
20…制御ユニット
20A…ハードウェアプロセッサ
20B…プログラムメモリ
21…秘匿化ルール取得部
22…文書データ取得部
23…センテンス分割部
24…秘匿対象判定部
25…秘匿化処理部
26…出力制御部
30…データメモリ
31…秘匿化ルール記憶部
32…文書データ記憶部
50…バス

Claims (9)

  1. 文字情報からなるセンテンスを含む第1の文書データを取得する文書データ取得部と、
    前記第1の文書データをセンテンスに分割するセンテンス分割部と、
    前記第1の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定された第1のルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定し、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第2のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する秘匿対象判定部と、
    秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する秘匿化処理部と、
    前記秘匿化処理部によって秘匿化処理を実行されたセンテンスを含む第2の文書データを出力する出力部と
    を具備する情報処理装置。
  2. 前記秘匿対象判定部は、特定のセンテンス中に秘匿化の対象語が一定数または一定割合以上含まれる場合に、当該センテンスが秘匿化の対象であると判定する、請求項1に記載の情報処理装置。
  3. 前記秘匿対象判定部は、特定のセンテンスが特定の話者に関連付けられる場合に、当該センテンスが秘匿化の対象であると判定する、請求項1に記載の情報処理装置。
  4. 前記秘匿対象判定部は、特定のセンテンス中に秘匿化を要することを示す語句が含まれる場合に、前記特定のセンテンスと同一の話者の発話として識別される、前記特定のセンテンスに連続する一連のセンテンスを秘匿化の対象であると判定する、請求項1に記載の情報処理装置。
  5. 前記秘匿対象判定部は、前記あらかじめ設定されたルールに基づいて、前記第1の文書データに含まれる分割されたセンテンスごとに機密性の高さを表す機密レベルを判定し、
    前記秘匿化処理部は、前記センテンスごとに、前記秘匿対象判定部によって判定された機密レベルに応じて異なる秘匿化処理を実行する、請求項1に記載の情報処理装置。
  6. 前記秘匿化処理部は、前記センテンスごとに、前記機密レベルに応じて異なる鍵を用いて元のセンテンスへと復元可能な秘匿化処理を実行する、請求項5に記載の情報処理装置。
  7. 前記秘匿化処理部は、秘匿化の対象であると判定されたセンテンスに対して時限式の秘匿化処理を実行する、請求項1に記載の情報処理装置。
  8. 情報処理装置が実行する情報処理方法であって、
    文字情報からなるセンテンスを含む第1の文書データを取得する過程と、
    前記第1の文書データをセンテンスに分割する過程と、
    前記第1の文書データに含まれる分割されたセンテンスごとに、あらかじめ設定されたルールに基づいて、当該センテンスが秘匿化の対象であるか否かを判定、秘匿化の対象でないと判定されたセンテンスについて、当該センテンスに含まれるワードごとに、あらかじめ設定された第2のルールに基づいて、当該ワードが秘匿化の対象であるか否かを判定する過程と、
    秘匿化の対象であると判定された場合に、当該センテンスに対して、当該センテンス中の文字をすべて特定の記号に置き換えるマスク処理、当該センテンス全体の暗号化処理、または当該センテンスの削除、のうちの何れかを含む秘匿化処理を実行し、秘匿化の対象でないと判定されたセンテンスについては秘匿化の対象であると判定されたワード単位で秘匿化処理を実行する過程と、
    前記秘匿化処理を実行する過程によって秘匿化処理を実行されたセンテンスを含む第2の文書データを出力する過程と
    を具備する情報処理方法。
  9. 請求項1乃至請求項7の何れかに記載の装置による各処理をハードウェアプロセッサに実行させるプログラム。
JP2019049064A 2019-03-15 2019-03-15 情報処理装置、情報処理方法およびプログラム Active JP7229821B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019049064A JP7229821B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法およびプログラム
CN202080005003.8A CN112654991A (zh) 2019-03-15 2020-03-11 信息处理装置、信息处理方法及程序
PCT/JP2020/010529 WO2020189441A1 (ja) 2019-03-15 2020-03-11 情報処理装置、情報処理方法およびプログラム
US17/275,870 US20220058277A1 (en) 2019-03-15 2020-03-11 Information processing apparatus, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019049064A JP7229821B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020149628A JP2020149628A (ja) 2020-09-17
JP7229821B2 true JP7229821B2 (ja) 2023-02-28

Family

ID=72430648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019049064A Active JP7229821B2 (ja) 2019-03-15 2019-03-15 情報処理装置、情報処理方法およびプログラム

Country Status (4)

Country Link
US (1) US20220058277A1 (ja)
JP (1) JP7229821B2 (ja)
CN (1) CN112654991A (ja)
WO (1) WO2020189441A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6986589B2 (ja) * 2020-03-31 2021-12-22 ソフトバンク株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2022215120A1 (ja) * 2021-04-05 2022-10-13 株式会社KPMG Ignition Tokyo 情報処理装置、情報処理方法、情報処理プログラム
WO2023013062A1 (ja) * 2021-08-06 2023-02-09 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US11954213B2 (en) * 2021-09-13 2024-04-09 International Business Machines Corporation Obfuscating intelligent data while preserving reserve values
WO2023074008A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体
CN114741717B (zh) * 2022-06-14 2022-09-06 合肥高维数据技术有限公司 基于ooxml文档的隐藏信息嵌入和提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001189718A (ja) 1999-12-28 2001-07-10 Eiichi Masai 期日指定文書の作製方法及びその作製装置、並びに期日指定文書の作製プログラムを記録した記録媒体
JP2004213376A (ja) 2002-12-27 2004-07-29 Canon Sales Co Inc マスキング装置及びその制御方法、プログラム
JP2008193612A (ja) 2007-02-07 2008-08-21 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2014186425A (ja) 2013-03-22 2014-10-02 Mitsubishi Denki Information Technology Corp 文章マスク装置及び文章マスクプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991709A (en) * 1994-07-08 1999-11-23 Schoen; Neil Charles Document automated classification/declassification system
US8176563B2 (en) * 2000-11-13 2012-05-08 DigitalDoors, Inc. Data security system and method with editor
US7433869B2 (en) * 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US9596349B1 (en) * 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance
CN106504744B (zh) * 2016-10-26 2020-05-01 科大讯飞股份有限公司 一种语音处理方法及装置
KR102424520B1 (ko) * 2017-11-29 2022-07-25 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
CN112970061A (zh) * 2018-11-14 2021-06-15 惠普发展公司,有限责任合伙企业 基于策略许可的内容

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001189718A (ja) 1999-12-28 2001-07-10 Eiichi Masai 期日指定文書の作製方法及びその作製装置、並びに期日指定文書の作製プログラムを記録した記録媒体
JP2004213376A (ja) 2002-12-27 2004-07-29 Canon Sales Co Inc マスキング装置及びその制御方法、プログラム
JP2008193612A (ja) 2007-02-07 2008-08-21 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2014186425A (ja) 2013-03-22 2014-10-02 Mitsubishi Denki Information Technology Corp 文章マスク装置及び文章マスクプログラム

Also Published As

Publication number Publication date
JP2020149628A (ja) 2020-09-17
CN112654991A (zh) 2021-04-13
WO2020189441A1 (ja) 2020-09-24
US20220058277A1 (en) 2022-02-24

Similar Documents

Publication Publication Date Title
JP7229821B2 (ja) 情報処理装置、情報処理方法およびプログラム
US10552118B2 (en) Context based identification of non-relevant verbal communications
US9652113B1 (en) Managing multiple overlapped or missed meetings
TWI536365B (zh) 聲紋辨識
CN112272828A (zh) 模糊与个人可识别信息(pii)有关的信息
EP2157571A2 (en) Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
Ellis et al. The end of symbiosis? Australia police–media relations in the digital age
US20070133437A1 (en) System and methods for enabling applications of who-is-speaking (WIS) signals
KR102212298B1 (ko) 인공지능 기반의 비장애인과 청각장애인 간 화상 커뮤니케이션 플랫폼 시스템 및 그 동작 방법
JP6795668B1 (ja) 議事録作成システム
JP2008310618A (ja) Web会議支援プログラム、該プログラムを記録した記録媒体、Web会議支援装置、およびWeb会議支援方法
JPH08316953A (ja) 電子会議システム
US20230033595A1 (en) Automated actions in a conferencing service
Saptorini et al. Place, power and the pandemic: The disrupted material settings of television news making during COVID-19 in an Indonesian broadcaster
Källstig Laughing in the face of danger: Performativity and resistance in Zimbabwean stand-up comedy
JP2008011272A (ja) 会議システム及び制御方法、並びにプログラム及び記憶媒体
EP3040915A1 (en) Method and apparatus for identifying trends
JP2019145944A (ja) 音響出力システム、音響出力方法及びプログラム
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法
JP2021120813A (ja) 情報処理装置、情報処理方法及びプログラム
JP2005025571A (ja) 業務支援装置、業務支援方法およびそのプログラム
Chen Research on the Trends of Work Collaboration Industry Under Covid-19
Risam Micro-disclosures for Macro-erasures:# MeToo in the Academy
Call D4. 1 OVERVIEW AND ANALYSIS OF LAWFULLY INTERCEPTED AND PUBLICLY AVAILABLE DATA
US20230326454A1 (en) Dynamic chapter generation for a communication session

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210628

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220930

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230215

R150 Certificate of patent or registration of utility model

Ref document number: 7229821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150