JP2022179229A - 文章データ管理方法、文章データ管理システム - Google Patents

文章データ管理方法、文章データ管理システム Download PDF

Info

Publication number
JP2022179229A
JP2022179229A JP2021086558A JP2021086558A JP2022179229A JP 2022179229 A JP2022179229 A JP 2022179229A JP 2021086558 A JP2021086558 A JP 2021086558A JP 2021086558 A JP2021086558 A JP 2021086558A JP 2022179229 A JP2022179229 A JP 2022179229A
Authority
JP
Japan
Prior art keywords
document
term
word string
data management
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021086558A
Other languages
English (en)
Inventor
敬一 松澤
Keiichi Matsuzawa
光雄 早坂
Mitsuo Hayasaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021086558A priority Critical patent/JP2022179229A/ja
Priority to US17/688,235 priority patent/US12067372B2/en
Publication of JP2022179229A publication Critical patent/JP2022179229A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】文書データと規則の条項の紐づけを行い、文書データの外部送信に伴う法令違反リスクを減少する文章データ管理方法および文章データ管理システムを提供すること。【解決手段】文章データ管理システムは、プロセッサを備える。プロセッサは、規則を定める文章に用いる用語である第1の用語で記述された第1の文書の単語列1を、第1の用語とは異なる用語である第3の用語で記述された単語列1に対応する単語列2に変換し、外部送信する文章に用いる用語である第2の用語で記述された第2の文書の単語列3を、第3の用語で記述された単語列3に対応する単語列4に変換し、単語列2と単語列4を比較した結果をもって単語列1と単語列3の比較結果とすることにより、第1の文書と第2の文書を比較し、外部送信における規則の違反の可能性をチェックして第2文章の外部送信を決定する。【選択図】 図1

Description

本発明は、文章データ管理方法、および、文章データ管理システムに関する。
クラウド技術の進展により、パブリッククラウドと自社で構築したプライベートクラウドを連携させたハイブリッドクラウド構成におけるデータ利活用が進んでいる。ハイブリッドクラウドでは、データや処理、計算機資源の特性に応じて両者を使い分けることで、最適なデータ利活用を行う。
近年、法令や規制により、個人情報、技術情報、機密情報などに対するデータ統制への要請が強化されている。例えば、個人情報についてはGDPR(General Data Protection Regulation)、技術情報については米国再輸出規制などの法令では、こうした情報を含むデータの国外への送信が規制対象とされている。そして、これらの法令は厳罰化に進んでいることから、今後企業においても法令違反リスクに備え、データ統制が進むと考えられる。その一方で、適切にデータ統制を行うことは、企業にとって負担となる。例えば、ある技術情報が国外送信可能かどうか該非判定を行うには、その技術分野と関連法令の両方の知見を必要とするため、作業者の教育や作業コストが高い。
そこで、データ管理において、これら法規制への対応を支援する手法が提案されている。非特許文献1で開示している手法では、パブリッククラウド上のストレージに格納されたデータの中身をスキャンし、個人情報と思われるテキストパターンを見つけると管理者に通知し、その後の対応を促す。本手法は個人情報向けに検出パターンが設定されており、他の法令や規制への対応はなされていない。
特許文献1では、文書データに対し、類似文書を検索する手法が提案されている。本手法において検索対象の類似文書として法令文を用いることで、文書と法令の紐づけに用いることが考えられる。しかし、技術情報や機密情報を含む文書データは専門用語や独自用語を多用することが考えられる。その一方で、法令は法律用語を多用しており、用語の乖離がある。そのため適切な検索が行えず、紐づけに失敗するケースがある。加えて、法令が持つ階層構造や参照関係を考慮した紐づけを行わない。
https://cloud.netapp.com/cloud-compliance
特開平11-110395号公報
そこで、本発明は、文書データと規則の条項の紐づけを行い、文書データの外部送信に伴う、法令違反などの規則に対する違反リスクを減少する文章データ管理方法および文章データ管理システムを提供することを目的とする。
本発明の第1の態様によれば、下記の文章データ管理方法が提供される。文章データ管理方法は、コンピュータを用いて行われる。文章データ管理方法は、規則を定める文章に用いる用語である第1の用語で記述された第1の文書の単語列1を、第1の用語とは異なる用語である第3の用語で記述された単語列1に対応する単語列2に変換し、外部送信する文章に用いる用語である第2の用語で記述された第2の文書の単語列3を、第3の用語で記述された単語列3に対応する単語列4に変換し、単語列2と単語列4を比較した結果をもって単語列1と単語列3の比較結果とすることにより、第1の文書と第2の文書を比較し、外部送信における前記規則の違反の可能性をチェックして第2の文章の外部送信を決定する方法である。
本発明の第2の態様によれば、下記の文章データ管理システムが提供される。文章データ管理システムは、プロセッサを備える。プロセッサは、規則・文章紐づけプログラムを実行して、(1)規則を定める文章に用いる用語である第1の用語で記述された第1の文書の単語列1を、第1の用語とは異なる用語である第3の用語で記述された単語列1に対応する単語列2に変換し、(2)外部送信する文章に用いる用語である第2の用語で記述された第2の文書の単語列3を、第3の用語で記述された単語列3に対応する単語列4に変換し、(3)単語列2と単語列4を比較した結果をもって単語列1と単語列3の比較結果とすることにより、第1の文書と第2の文書を比較し、(4)文章外部送信プログラムの実行において、外部送信における前記規則の違反の可能性をチェックして第2文章の外部送信を決定する。
本発明によれば、文書データと規則の条項の紐づけを行い、文書データの外部送信に伴う、法令違反などの規則に対する違反リスクを減少する文章データ管理方法および文章データ管理システムが提供される。
第1実施形態における計算機システムの構成図である。 第1実施形態における規則・文書紐づけ計算機の構成の一例を示す図である。 第1実施形態における文書送信管理計算機の構成の一例を示す図である。 第1実施形態における外部送信承認処理用計算機の構成の一例を示す図である。 第1実施形態における用語変換辞書の例である。 第1実施形態における規則及び文書の例である。 第1実施形態における規則情報の例である。 第1実施形態における規則と文書の紐づけ処理フローである。 第1実施形態における文書の外部送信処理フローである。 第1実施形態における文書の外部送信の承認画面の例である。 第2実施形態における用語変換辞書の構築手順を示す図である。 第3実施形態における規則と文書の紐づけ処理フローである。 第4実施形態における階層構造と参照関係を含む規則の例である。 第4実施形態における規則と文書の紐づけ処理フローである。
図1を参照しながら、第1実施形態について説明する。図1は、本実施形態が対象とする計算機システムの構成図100を示す。計算機システム110(文章データ管理システム)は、ある拠点に設置された複数の計算機を備える構成とすることができる。本実施形態では、計算機システム110は、ストレージ120と、外部送信承認処理用計算機150と、文書送信管理計算機160と、規則・文書紐づけ計算機170と、を備える。なお、図1において、外部計算機システム180は、計算機システム110と論理的または物理的に異なる拠点に設置された計算機のシステムである。外部計算機システム180は、例えば、企業に対する他企業の計算機システム、国外に設置された海外部署の計算機システム、パブリッククラウドなどが該当する。
ストレージ120は、文書130を格納する装置である。ストレージ120は、公知の記憶媒体より構成することができ、ストレージ120を構成する記憶媒体としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク、磁気ディスク、磁気テープなどが考えられる。文書130は、文章やテキスト情報を格納する。文書130の格納形式として、ファイルやオブジェクト、データベース等が考えられる。そのため、ストレージ120は、上述の記憶媒体を用いて、ファイルストレージ、オブジェクトストレージ、RDBMS(Relational DataBase Management System)等、文書130の格納形式に合わせた実態を取ることができる。規則情報140は、文書130に格納された情報をもとに、規則・文書紐づけ計算機170が文書130に付与する情報で、当該文書130と紐づけられた規則に関する情報を格納している。規則情報140は、例えば、文書130の特定のページや段落が、規則のどの条項と紐づくかという関係が列挙された情報を格納する。なお、規則情報140は、図1においてはストレージ120内に格納されているが、規則・文書紐づけ計算機170や文書送信管理計算機160に格納してもよい。
規則・文書紐づけ計算機170は、文書130に格納された文章を解析し、その内容に応じて、規則情報140を文書130に紐づけする。
文書送信管理計算機160は、計算機システム110の利用者195が、ストレージ120に格納された文書130を外部計算機システム180に送信したいとき、その送信依頼を受け送信の可否を判断する。その際、文書送信管理計算機160は、外部送信承認処理用計算機150を介し、計算機システム110の管理者190に送信可否を問い合わせることがある。
外部送信承認処理用計算機150は、文書送信管理計算機160に送信依頼がなされた文書130について、文書130の情報と、それに紐づく規則情報140を管理者190に提示し、管理者190の送信依頼の対する承認または却下を受け取る。
次に、図2を参照しながら、規則・文書紐づけ計算機170の具体的な構成について説明する。図2は、規則・文書紐づけ計算機170を示す。規則・文書紐づけ計算機170は、CPU210、メモリ220、ネットワークインタフェース230を備える。CPU210は、メモリ220に格納された各種プログラム(規則・文章紐づけプログラム221及び用語変換辞書作成プログラム225)に従い、規則・文書紐づけ計算機170の動作を決定する。メモリ220には、規則・文章紐づけプログラム221、規則データ222、規則向け用語変換辞書223、文書向け用語変換辞書224、用語変換辞書作成プログラム225が格納されている。規則・文章紐づけプログラム221は、ストレージ120に格納された文書130に対し、規則情報140を付与することに用いられるプログラムである。規則データ222は、規則・文章紐づけプログラム221の処理において参照される、各種規則に対する情報(規則の名称、条項の内容、階層関係など)を含む。規則向け用語変換辞書223は、規則・文章紐づけプログラム221の処理で使用されるデータであり、辞書として利用することができ、規則データ222に格納された語句を変換するのに用いる。文書向け用語変換辞書224は、規則・文章紐づけプログラム221の処理で使用されるデータであり、辞書として利用することができ、文書130に格納された語句を変換するのに用いる。用語変換辞書生成プログラム225は、規則データ222や文書130、もしくはその他外部にある書籍、新聞、Webサイトなどのテキストデータから、規則向け用語変換辞書223または文書向け用語変換辞書224(両変換辞書223・224がプログラムである場合、それらプログラムが使用するデータ)を生成するために用いるプログラムである。ネットワークインタフェース230は、計算機システム110内にある他の計算機やストレージ120と通信を行うためのインターフェースである。計算機との通信には、Ethernet、TCP/IP、HTTP等の計算機間の通信で広く使用されるプロトコルが使用できる。ストレージ120との通信には、NFS(Network File System)、SMB(Server Message Block)のようにファイル単位でデータ送受信を行うプロトコル、REST(Representation Server Transfer)のようにオブジェクト単位でデータ送受信を行うプロトコル、ODBC(Open Database Connectivity)のようにデータベースを対象としてデータ送受信を行うプロトコルなどが使用できる。
前述の処理は、CPU210(すなわち、プロセッサ)が各種プログラムに記載された手順にのっとり実行している。以降の計算機に関する記述においても、同様であり、CPU(プロセッサ)がプログラムの処理の主体となる。
なお、各種のデータ(221~225)を格納する位置は、所定の処理を実行することができれば特に限定されず、適宜に決定することができる。ここで、データの格納位置の例について説明する。図2の例では、規則・文書紐づけ計算機170は、規則データ222、規則向け用語変換辞書223、および、文書向け用語変換辞書224を、メモリ220内に格納しているが、これらのデータは、CPU210から参照可能であれば他の位置にあってもよい。規則・文書紐づけ計算機170は、例えば、メモリ220に記憶媒体を保持しており、当該記憶媒体にデータが格納されてもよい。また、規則・文書紐づけ計算機170は、ネットワークインタフェース230を介して、計算機システム110の内外から、これらのデータを取得したりしても良い。また、例えば、規則・文書紐づけ計算機170に記憶媒体が外付けされ、当該記憶媒体にデータが格納されてもよい。
次に、図3を参照しながら、文書送信管理計算機160の具体的な構成について説明する。図3は、文書送信管理計算機160を示す。文書送信管理計算機160は、CPU310、メモリ320、ネットワークインタフェース330を備える。CPU310及びネットワークインタフェース330は、規則・文書紐づけ計算機170が備えるCPU210及びネットワークインタフェース230それぞれと同等の役割(機能)を有する。メモリ320には、文書外部送信プログラム321、規則・送信先情報テーブル322、外部送信履歴テーブル323が格納されている。文書外部送信プログラム321は、利用者195が文書130を外部計算機システム180に送信したい場合、その送信依頼を受け付けて行う後述の規則と文書の紐づけ処理フロー800の結果に基づき、送信を実施するプログラムである。規則・送信先情報テーブル322は、規則の条項と、その条項に該当する文書130を送信してよい送信先の外部計算機システム180の対応関係を列挙したテーブルである。外部送信履歴テーブル323は、過去に文書外部送信プログラム321が送信した、もしくは送信を取りやめた文書に関する履歴情報である。
次に、図4を参照しながら、外部送信承認処理用計算機150の具体的な構成について説明する。図4は、外部送信承認処理用計算機150を示す。外部送信承認処理用計算機150は、CPU410、メモリ420、ネットワークインタフェース430、ディスプレイ440を備える。CPU410及びネットワークインタフェース430は、規則・文書紐づけ計算機170が備えるCPU210及びネットワークインタフェース230とそれぞれ同等の役割(機能)を有する。メモリ420には、外部送信承認処理プログラム421が格納されている。外部送信承認処理プログラム421は、文書送信管理計算機160が文書外部送信プログラム321の実行により管理者190に対し文書130の外部送信可否の問い合わせを行うときに動作する。ディスプレイ440は、外部送信承認処理プログラム421の実行により外部送信承認処理用計算機150が管理者190に情報を表示するのに用いる。ただし、管理者190に情報を表示できればよく、構造や配置などは特に限定されない。ディスプレイ440は、必ずしも外部送信承認処理用計算機150に内蔵されなくても良い。例えば、外部送信承認処理プログラム421の実行により、HTTP(Hypertext Transfer Protocol)などのプロトコルを通じて、画面表示に必要な情報がネットワークインタフェース430で送出され、その情報を受けた別の計算機が、管理者190に対し画面表示を行ってもよい。
次に、図5を参照しながら、用語変換辞書について説明する。図5は、規則向け用語変換辞書223と文書向け用語変換辞書224の例を示す。いずれも、変換元表記(510、560)と変換先表記(520、570)の対を並べた形で表現されている。
規則向け用語変換辞書223における変換元表記510は、規則中に現れる表記の一部を抜粋したものである。対応する変換先表記520は、規則中に現れた変換元表記510と一致する表記の変換先となる表記を示す。例えば変換エントリ531は、規則データ522中に「計算機能を有する装置」という表記があった場合、「計算機」という表記に変換することを示す。複数の変換エントリにおいて、変換先表記520が一致していても良い。例えば変換エントリ(531,532,533)はいずれも変換先表記520が「計算機」で一致する。これは変換元表記510に記載された「計算機能を有する装置」と「サーバ」と「コンピュータ」がいずれも同じ「計算機」とみなせることを意味する。変換先表記520は、自然言語で記載された表現でなくともよい。例えば、Wordnet(https://wordnet.princeton.edu/を参考)などのように、表現に対し付与されたID番号をもって代替してもよいし、Word2Vec(https://arxiv.org/abs/1301.3781を参考)などのように、単語を数値ベクトルの形で表現したものをもって代替してもよい。また、変換元表記510と変換先表記520の対応は、図5の例に示すように1:1で対応付けられた変換エントリを列挙する形以外にも、変換元表記510から変換先表記520を生成するルールやアルゴリズムとして記載されていてもよい。
文書向け用語変換辞書224における変換元表記560と変換先表記570は、規則ではなく文書を対象とする点を除けば、規則向け用語変換辞書223における変換元表記510と変換先表記520に同様である。
変換元表記(510、560)は、それぞれの適用対象となる語彙を用いる。例えば変換元表記510は主に規則中で現れる用語を用い、変換元表記560は主に文書中で現れる用語を用いる。変換先表記(520、570)は、特定に規則や文書に偏らない共通用語を用いる。共通用語は、例えば、一般用語とすることができる。これにより、規則や文書における語彙の違いを取り除くことを想定する。
ここで、規則と文章の例について説明する。図6は、規則600と文書650の例を示す。
規則600は、法律用語を含み、条項の羅列として表現される。なお、法律用語は、規則を定める文章に用いる用語である第1の用語の一例として考えることができ、規則600は、第1の用語で記述された第1の文章の一例として考えることができる。図6では、規則600のうちの2つの条項(条項610と条項620)を図示している。各条項は、自然言語を用いて、主に単語、熟語、文章によって表現される。自然言語表記に変換可能な表記であれば、化学式や記号でも良い。
加えて、規則600は適用対象となる送信先630の条項を含むことがある。図6の例は、この規則600がA国への情報提供について規定した規則であることを示す条項を含む。この情報は、文書送信管理計算機160が抽出し、規則・送信先情報テーブル322に予め格納しておく。
文書650は、段落の羅列として表現される。図6の例は、技術用語を含む文章であり、そのうちの段落(660、670)を図示している。なお、技術用語は、外部送信する文章に用いる用語である第2の用語の一例として考えることができ、文章650は、第2の用語で記述された第2の文章の一例として考えることができる。各段落は、自然言語を用いて、主に単語、熟語、文章によって表現される。自然言語表記に変換可能な表記であれば、化学式や記号でも良い。
次に、図7を参照しながら、規則情報について説明する。図7は、文書130に付与される規則情報140の例を示す。
規則情報140は、文書内位置710、規則711、条項712、スコア713、用語の対応情報714を並べたエントリを、エントリ(720、721)のように列挙した形をとる。各エントリは、文書のある一部と、規則の条項と、の間の紐づけに関する情報を示す。
文書内位置710は、エントリが指し示す文書内の位置情報を示す。位置情報としては、ページ番号、段落番号、章、節、項、文などが利用できる。規則711及び条項712は、エントリが指し示す規則とその条項を特定する情報を示す。スコア713は、エントリが指し示す文書と規則の条項の紐づけの強さ(例えば関連度や類似度)を示す値を格納する。用語の対応情報714は、文書内の単語と、規則の条項内の単語について、規則向け用語変換辞書223と文書向け用語変換辞書224を用いた結果一致した単語の対の情報を示す。用語の対応情報714は、補助的な情報であり、規則情報140を構成する際に無くてもよい。
図8は、規則と文書の紐づけ処理フロー800を示す。規則・文書紐づけ計算機170が規則・文書紐づけプログラム221に従いフロー800を実行する。
フロー800のうち、ループ810は規則のみを対象とした処理である。そのため、ループ810とステップ820以降は異なるタイミングで実施しても良い。例えば、処理対象の文書が準備未完の状態でループ810を先行して行うことができる。また、複数の文書に対しフロー800を行う場合、ループ810の結果は各文書で共有しても良い。
規則・文書紐づけ計算機170は、ループ810において、規則データ222に格納された個々の規則に対し処理を行う。ステップ811では、規則の各条項の前処理を行い、前処理では、使用言語に依存した処理が行われる。例えば、不要な記号などの除去、段落やページ毎の規則の分割、日本語であれば形態素解析やかな漢字・英数字の正規化、英語であれば大文字小文字の正規化やLemmatization等の処理が該当する。また、規則中に図表など自然言語以外の形式で記述された内容があれば、それらの記述内容やキャプションを自然言語として抽出する処理も含む。ステップ812では、規則の条項中で、規則向け用語変換辞書223における変換元表記510に合致する単語がある場合、該当するエントリの対応する変換先表記520に置換し、共通用語(第3の用語)を用いた単語列(単語列2)を生成する。
フロー800のステップ820以降は文書を対象とした処理である。規則・文書紐づけ計算機170は、ステップ820において、文書に対し前処理を行う。この前処理の内容は、ステップ811で規則の各条項に行った処理と同様である。ステップ830では、文書中で、文書向け用語変換辞書224における変換元表記560に合致する記述がある場合、該当するエントリの対応する変換先表記570に置換し、共通用語(第3の用語)を用いた単語列(単語列4)を生成する。
規則・文書紐づけ計算機170は、ループ840において、ステップ820と830の処理を行った文書に対し、ループ810を行った規則の条項毎に処理を行う。ステップ841では、ステップ812で得た規則の条項から生成した共通用語を用いた単語列と、ステップ830で得た文書から生成した共通用語を用いた単語列の比較を行い、スコア(関連性や類似度に相当する値)を算出する。単語列の比較手法には、既存のアルゴリズムが利用できる。例えば、N-gramにおける適合率・再現率算出やBLEU(BiLingual Evaluation Understudy)などが利用できる。また、規則向け用語変換辞書223と文書向け用語変換辞書224において変換先表記(520、570)として数値ベクトルを用いるのであれば、数値ベクトル間の距離を用いることもできる。また、この値は単語毎に重みづけをしながら算出しても良い。例えば、助詞、前置詞などの文章中大きな意味を持たない品詞や、「a」「this」など登場頻度の多い単語は重みを下げる、という算出法がある。また、規則の条項中のどの単語と、文書中のどの単語が特に関連性や類似度が高かったかという単語毎の比較結果も保持しておいても良い。
規則・文書紐づけ計算機170は、ステップ850において、ループ840で規則の条項毎に文書と比較したスコアのうち、上位数件もしくは閾値以上の値を示した規則の条項を、文書と紐づく条項とみなす。この結果は、条項毎に規則情報140のエントリとして格納される。その際、スコア713にはステップ841で算出した関連性や類似度に相当する値を格納し、用語の対応情報714には、ステップ841で得た、文書内の単語と、規則の条項内の単語について、規則向け用語変換辞書223と文書向け用語変換辞書224を用いた結果一致した単語の対の情報を格納する。
図9は、文書の外部送信処理フロー900を示す。計算機システム110の利用者195が、文書130を外部計算機システム180に送信するまでの過程で、文書送信管理計算機160が主導してフロー900を実行する。なお、文章送信管理計算機160は、フロー900において、文書外部送信プログラム321を実行する。ここで、フロー900に関する処理は、例えば、以下の契機で行われてもよい。1つの契機として、利用者195が外部計算機システム180への送信を指示する契機で、フロー900の全ステップが実行されることが考えられる。また別の契機として、文書130が初めてストレージ120に格納された段階でステップ810が行われ、以降のステップにおいて利用者195が外部計算機システム180への送信を指示する契機で、フロー900に関する処理が行われることが考えられる。また別の契機として、利用者195が外部計算機システム180への送信を指示する前にステップ930までを終えておき、利用者195が送信を指示する契機で、ステップ940以降が実施されることが考えられる。以下では、1つ目に述べた、利用者195が外部計算機システム180への送信を指示する契機で全ステップを実行するケースを代表例として、フロー900の処理を説明する。
まず、利用者195が、ストレージ120に対し、文書送信管理計算機160を介して外部計算機システム180へストレージ120内の文書130の送信を指示する。これにより、フロー900が開始する。ステップ910では、文書送信管理計算機160が規則・文書紐づけ計算機170に依頼し、規則・文書紐づけ計算機170がフロー800を実行することで、規則・文書紐づけ計算機170が文書130に対する規則情報140を付与する。
続くステップ920では、文書送信管理計算機160は、規則情報140と規則・送信先情報テーブル322、及び送信先の外部計算機システム180の所在を照合し、外部計算機システム180への文書の送信を制限するような規則が規則情報140に含まれるか判定する。もし規則情報140に複数の規則の条項が格納される場合、1つでも制限する条項があれば、含まれるとみなされる。もしステップ920で、外部計算機システム180への文書送信を制限する規則が1つもない場合、ステップ950にて文書送信管理計算機160が文書130を外部計算機システム180に送信する。そして、ステップ970へ進んでステップ970の処理が行われる。そうでない場合、ステップ930へ進んでステップ930の処理が行われる。
ステップ930では、文書送信管理計算機160は、外部送信承認処理用計算機150を介し管理者190に文書130の外部計算機システム180への送信の承認を求める。本ステップ930では、管理者190による承認を支援するため、外部送信承認処理用計算機150は、文書130及び文書130に紐づく規則の条項を提示する。具体的な提示例は後述する。
ステップ940では、ステップ930の提示を踏まえ、管理者190が文書130の外部計算機システム180への送信の承認/却下を行う。そして、その結果については、外部送信承認処理用計算機150が文書送信管理計算機160に通知する。ステップ940で管理者190が承認した場合、ステップ950にて、文書送信管理計算機160は、実際に文書130を外部計算機システム180に送信する。ステップ940で管理者190が却下した場合、ステップ960で、文書送信管理計算機160は、外部計算機システム180への文書130の送信を中止する。ステップ920及びステップ940の結果がいずれであっても、文書送信管理計算機160は、ステップ970にて、その結果を、文書名、日付、管理者名とともに外部送信履歴テーブル323に記録する。
フロー900では、文書送信管理計算機160は、規則情報140や規則・送信先情報テーブル322を適宜に参照してステップ920以降の手順を行うが、他の構成要素がアクセス管理機能を備えている場合、その機能が用いられてもよいし、その機能が代用されてもよい。例えば、ストレージ120が、文書130にアクセス権管理を行う機能を備えている場合、文書送信管理計算機160は、ステップ910の結果に基づきストレージ120に対し文書130の特定国からのアクセス権を設定/解除することで、特定国からの文書130の読み書きを禁止し、ステップ950では外部送信実施の代わりに、アクセス権の禁止を解除することで再びその国からの読み書きを許可する、という手順を取ることもできる。
図10は、ステップ930とステップ940の処理で用いる文書の外部送信承認画面1000の例を示す。
外部送信承認画面1000は、送信文書欄1010、関連規則欄1020、過去の承認履歴欄1070、承認ボタン1090、却下ボタン1091を備える。送信文書欄1010は、送信対象の文書130の内容を表示する。関連規則欄1020は、文書130に付与された規則情報140中の規則711及び条項712が示す規則の一部を表示する。
送信文書欄1010と、関連規則欄1020には、規則情報140の各エントリに対応する情報が補助的に表示され、図10の例では、エントリ720の情報が表示される。送信文書欄1010中の強調項目1030は、文書中で文書内位置711が指す位置を強調する。関連規則欄1020中の強調項目1040は、規則中で規則712や条項713が指す位置を強調する。また、接続関係1050は、強調項目1030と強調項目1040が規則情報140で同一エントリに格納されていることを示す。加えて、強調項目1030と強調項目1040間における、用語の対応情報714に格納された用語間の対応関係(1060、1061)を示す。ここで、対応関係の情報は、適宜の態様で示すことができ、図10に示すように、他の態様と異ならせた表示(例えば、フォントの差異、着色の有無など、が考慮された表示)が行われてもよいし、点線などにより対応関係が示されてもよい。これらの強調項目(1030、1040)及び接続関係1050、用語間の対応関係(1060、1061)により、外部送信承認画面1000を閲覧する管理者190に強調項目1030と強調項目1040が紐づけを持つことが提示される。
過去の承認履歴1070には、外部送信履歴テーブル323と、文書130に付与された規則情報140に格納された規則712及び条項713が参照されたうえで、過去の送信履歴において規則712及び条項713もしくは文書名1071が一致する文書に関する情報が表示される。過去の承認履歴1070は、文書名1071、日付1072、管理者1073、結果1074を並べた複数の履歴(1080、1081)を備える。1つの履歴は、1つの文書が1回承認または却下されたときの情報を示す。文書名1071は、履歴において承認または却下の対象となる文書130を示す。日付1072は、履歴において承認または却下の判断がなされた日付を示す。管理者1073は、履歴において承認または却下の判断を行った当時の管理者190を示す。結果1074は、履歴において承認または却下の判断結果を示す。
なお、関連規則欄1020及び過去の承認履歴1070は、規則情報140が複数のエントリを有する場合、エントリの数だけ対応する情報を表示しても良い。この例では単一の条項の分だけが示されている。
関連規則欄1020及び過去の承認履歴1070により、管理者190は、送信対象の文書130と紐づく規則の条項の詳細を把握できるため、両者を読み合わせることで最終的に文書130の外部計算機システム180への送信が可能かどうかについて判断することができる。そして、送信が可能と判断したら承認ボタン1090、送信が不可と判断したら却下ボタン1091を管理者190が押すことで、ステップ940が終了する。
本実施形態によれば、計算機システム内の文書データを外部計算機システムに送信する際、文書データと規則が異なる用語を用いた文章で記述されていたとしても、法令違反が懸念される文書送信の抑止が可能である。その手段として、規則と文書の紐づけを行う際、規則中の文章の単語列を一般用語の単語列に変換し、同様に文書中の文章の単語列を一般用語の単語列に変換し、それぞれの単語列を一般用語の単語列に揃えた上で比較することができ、その結果を規則と文書の比較結果として扱う。そして、上記比較にて文書と紐づく法令が見つかり、文章の送信が違反となる可能性がある場合、その文書を外部計算機システムに送信する際には、管理者に文書と法令を提示して管理者の承認を促し、承認を得たときのみ文書の送信を実施する。これにより、管理者による文書の外部への送信の判断を支援するとともに、判断結果によっては文書の外部送信を停止することができる。
次に、第2実施形態について説明する。第2実施形態は、第1実施形態における規則向け用語変換辞書223と文書向け用語変換辞書224の生成方法に関する。第2実施形態の説明にあたり、既に説明された内容と同じ説明については省略することがある。
現在、多くのテキストデータセットに機械学習を適用することで、類義語辞書を生成する手法が開示されている(例:笠原要; 稲子希望; 加藤恒昭. テキストデータを用いた類義語の自動作成(Automatic Generation of Synonyms Using Textual Data). 人工知能学会論文誌, 2003, 18.4: 221-232.)。また、前述のWord2Vecなど、テキストデータセットに機械学習を適用し、単語の分散表現を構成する手法が開示されている。これらの公知技術を、複数種類の用語を用いた文書が混在するテキストデータセットに使用することで、それら複数の用語における用語変換辞書を構成することができる。
図11は、これらの用語変換辞書構成手法を用いて、各種テキストデータセットから規則向け用語変換辞書223と文書向け用語変換辞書224を構築する際のデータと処理の流れを示す辞書構築手順1100を示す。辞書構築手順1100は、適宜に実行されればよく、例えば、規則・文章紐づけ計算機170が用語変換辞書生成プログラム225を実行して辞書が構築されてもよい。また、計算機システム110の外部で辞書構築手順1100が適宜に実行されて辞書が構築され、計算機システム110が適宜の手法により構築された辞書を取得してもよい。
辞書構築手順1100では、元となるテキストデータセットとして規則データセット1110、文書データセット1120、一般テキストデータセット1130が含まれる。規則データセット1110は、規則600中の文章を集めたものであり、規則固有の用語が多く使用されているテキストデータセットである。文書データセット1120は、文書650中の文章を集めたものであり、文書固有の用語が多く使用されているテキストデータセットである。一般テキストデータセット1130は、一般的な文章を多く集めたテキストデータセットで、新聞、Web上のテキスト、書籍、学術論文、特許文献などが該当する。
辞書構築手順1100では、規則データセット1110と一般テキストデータセット1130を合わせた、規則及び一般テキストデータセット1140が作成され、この規則及び一般テキストデータセット1140に上述の既存手法など(すなわち、機械学習を適用する手法など)を用いた用語変換辞書生成処理1160が適用されて、規則向け用語変換辞書223が生成される。同様に、文書データセット1120と一般テキストデータセット1130を合わせた、文書及び一般テキストデータセット1150が作成され、この文書及び一般テキストデータセット1150に用語変換辞書生成処理1160が適用されて、文書向け用語変換辞書224が生成される。その際、規則向け用語変換辞書223における変換先表記520や文書向け用語変換辞書224における変換先表記570は、一般テキストデータセット1130中に登場する表記、もしくはそれらをIDや数値ベクトルで表現したものを用いる。
本実施形態により、用語変換辞書がない規則や文書に対しても、用語変換辞書を生成して第1実施形態の計算機システムが利用可能になる。また、用語変換辞書の生成に用いるテキストデータセットに一般テキストデータセットを含めることで、規則向け用語変換辞書223における変換先表記520や文書向け用語変換辞書224における変換先表記570として一般テキストデータセット中の表記を利用できるので、規則固有の表記と文書固有の表記を一般テキストデータセット中の表記への変換を介して間接的に比較できるようになる。加えて、規則向け用語変換辞書223の生成には規則データセット1110、文書向け用語変換時224の生成には文書データセット1120と生成元のテキストデータセットを使い分けることで、規則と文書で同一表記が異なる意味で使用されている場合、規則向け用語変換辞書223と文書向け用語変換辞書224で異なる変換先表記に変換され、誤ってこれらの表記が混同されることを防ぐことができる。
次に、第3実施形態について説明する。第3実施形態は、第1実施形態における規則と文書の紐づけ処理に関する。第3実施形態の説明にあたり、既に説明された内容と同じ説明については省略することがある。
第1実施形態では、規則と文書、及び用語変換辞書を用いた変換先表記について、用語の差異はあるが、用いる言語は同じであった。第3実施形態では、規則と文書が異なる言語を用いる場合、及び規則と文書が同じ言語を用いる場合であっても、そのいずれとも異なる言語に変換して(規則の言語および文章の言語とは異なる言語に変換して)、単語列を比較する手法を示す。なお、第3実施形態の説明にあたり、既に説明された内容と同じ説明については省略することがある。
以下、規則と文書が日本語で記述されており、比較には(つまり、比較用言語として)、英語を使用する例を挙げる。なお、本実施形態について使用する言語は日本語と英語に限定されるわけではなく、他の任意の言語を使用することができる。
図12は、規則と文書の紐づけ処理フロー1200を示す。規則と文書の紐づけ処理フロー1200は、第1実施形態における規則と文書の紐づけ処理フロー800に、ステップ1210とステップ1220を追加したフローである。それ以外のステップは規則と文書の紐づけ処理フロー800と同一であるため、以下ステップ1210とステップ1220を説明する。
ステップ1210では、規則の記述言語が比較用言語(第1言語)と異なっているとき、比較用言語に変換した規則が取得される。変換手法は、適宜の手法でよく、例えば、すでに規則に日英対訳が存在する場合、その英文が使用されてもよいし、人による翻訳や機械翻訳が行われてもよい。ステップ1220では、同様に、文書の記述言語が比較用言語と異なっているとき、比較用言語に変換した文章が取得される。
規則と文書の紐づけ処理フロー1200では、ステップ1210及びステップ1220以外のステップは比較用言語を対象に行う。また、規則向け用語変換辞書223と文書向け用語変換辞書224における変換元表記も比較用言語で作成する。
本実施形態によれば、以下の2つの効果が得られる。1つ目は、規則と文書が異なる言語で記述されているとき、比較用言語を用いた対訳や翻訳を通して、規則と文書の紐づけを行えることである。2つ目は、言語の特性や第2実施形態で説明された一般テキストデータセット1130の入手容易性等、言語によって規則と文書の紐づけ処理フロー800の結果が変化しうるので、規則と文書の紐づけ処理フロー800の結果が最良となるような言語を比較用言語として選択し、規則と文書の紐づけ処理フロー1200を行うことで、得られる比較結果を最良のものにできることである。
次に、第4実施形態について説明する。第4実施形態は、例えば第1実施形態において、規則が階層構造や参照構造を持つ場合に、第1実施形態の効果を高める手段として適用できる。第4実施形態の説明にあたり、既に説明された内容と同じ説明については省略することがある。
関税定率法などに代表されるように、規則は対象とする多様な条件や物品を列挙するため、規則は階層構造や他の条項を参照したり補足するような記述を多数含む。図13は、そのような規則の例を示す。
図13において、規則1300は、条項(1310、1320、1330、1340、1350、1360、1370、1380)、及び、注1390を含む。条項1320は、条項1310の下位の項目であり、条項1330は、条項1320の下位の項目である。これは、上位の項目ほど大きな分類を示し、下位の項目ほど細かく具体的な分類であることを示す。この例では、条項1310が指す「化合物」より条項1320が指す「非フッ素化化合物」の方が具体的であり、条項1330が指す「ビフェニレン、トリフェニレン」はさらに具体的である。同様に、条項1340の下位項目として条項(1350、1360)が並列に記載されている。これは、条項1340が指す「樹脂」よりも条項1350が指す「フェノール樹脂」や条項1360が指す「第2号(A)に該当するもの」がより具体的であることを示す。同様に、条項1370が指す「燃料・鉱物油」よりも条項1380が指す「重油」の方が具体的である。
一般に、各条項は番号やID、名称などで参照可能である。例えば条項1310は先頭に「2」、条項1320は先頭に「(A)」を含む。従って、これらの番号、ID、名称を上位項目から並べた「2(A)」や、一般的に規制の条項を指す「号」「項」などの記述を含め「第2号(A)」などと表記することで、特定の条項1320を参照できる。これらの特定の条項を参照するための表記や、「次のいずれか」のように階層上で近傍の条項を指す表記によって、ある条項の規則内外の他の条項へ参照することが定められている。例えば、条項1360に含まれる参照1361「第2号(A)」は、他の条項1320を参照する。これは、文書が条項1360と紐づけられるか比較する際、参照1361が示す条項1320も含めて比較すべきことを意味する。また、規則外の他の文章(第3の文章)の条項を参照することが定められている場合、この条項も比較する対象となる。
また、ある記述が他の記述を補足する場合がある。注1390は参照1391により条項1380を参照して補足している。これは条項1380が、注1390に含まれる「燃料として使用する石油」も対象に含むことを意味する。
本実施形態では、規則と文書の紐づけ処理フロー1400が実行される。図14は、規則と文書の紐づけ処理フロー1400を示す。規則と文書の紐づけ処理フロー1400は、第1実施形態における規則と文書の紐づけ処理フロー800に、ステップ(1410、1411、1412)を追加し、ステップ850をステップ1413で置き換えたフローである。以下、規則と文書の紐づけ処理フロー1400固有のステップ(1410、1411、1412、1413)を説明する。
ステップ1410では、規則の条項の階層構造が取得される。XML(Extensible Markup Language)等により規則がもともと構造化文書の形で記述されている場合、その階層構造をもって規則の条項の階層構造とみなすことができる。その他では、規則において条、項、節などの番号を参考に規則の持つ階層構造を構築する手法や、規則の書面におけるレイアウトやインデントを参考に階層構造を構築する手法などにも適用でき、階層構造が取得される。
ステップ1411では、規則の条項における他項目への参照や補足関係が取得される。その手段としては、一例として、規則の条項の文において、上述の「第2号(A)」「次のいずれか」のような他の項目を指す表記を抽出する手段が考えられる。
ステップ1412では、規則の条項を構成する単語列として、ステップ812により条項自体の文から生成した共通用語を用いた単語列に、以下の単語列が加えられる。
・上位階層の条項から生成した共通用語を用いた単語列
・参照先の条項及び参照先の条項の上下階層の条項から生成した共通用語を用いた単語列
・補足元の条項及び補足元の条項の上下階層の条項から生成した共通用語を用いた単語列
なお、これらの単語列を加える際、元の条項からの階層上での距離に応じて、ステップ841の比較結果において重みづけをしてもよい。例えば、n階層上位階層の条項の単語列は、ステップ841の比較時に0.5のn乗をかけた重みを適用するなどが考えられる。これにより、上位階層や参照先の用語による比較結果への影響を制御することができる。
ステップ1413では、ステップ850同様に文書と紐づく規則の条項を選択するが、その際に規則の階層構造を使用して絞り込みを行っても良い。例えば、上下関係にある条項がともに閾値を超えるとき、下位の条項のみ残し上位の条項が除去されてもよい。そのような例として、規則1300において条項1320と条項1330がともに閾値以上のスコアを得たとする。この場合、条項1330の方がより具体的な内容を示すため、条項1330が文書と紐づくのであれば、管理者190が外部送信可否の判断を下す上で、より大きな分類である条項1320を考慮する意義は薄い。別の例として、階層において並列の位置の関係にある条項1350と条項1360がともに閾値以上のスコアを得たとする。この場合、それらを包含する上位項目である条項1340と紐づけを行い、個々の条項1350と条項1360を紐づけから除去することが考えられる。
本実施形態によれば、規則の階層関係や参照、補足関係を踏まえた規則と文書の紐づけが可能となる。例えば「ビフェニレン樹脂」を条項1360に紐づけることができる。ステップ1412により、条項1360から生成した共通用語を用いた単語列には、上位項目である条項1340に含まれる「樹脂」や、参照1361の参照先である条項1320の下位項目である条項1330に含まれる「ビフェニレン」が共に包含されているためである。
以上実施形態について説明したが、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
プロセッサの一例としてはCPUが考えられるが、所定の処理を実行する主体であれば他の半導体デバイス(例えば、GPU)でもよい。
本実施形態では、計算機システム110が規則(法律用語を用いた法律に関する規則)と技術文章を変換して比較する例について説明されたが、この例に限定されず、計算機システム110は、2つの語彙が異なる文書を処理対象とすることができる。計算機システム110は、例えば、専門用語や独自用語を多用する文章を対象として処理を行ってもよい。例えば、法律に関する規則に限らず、社内規則などの他の規則に含まれる用語を一般用語に変換して処理を行ってもよいし、技術文章に限らず、他の種類の文章に含まれる用語を一般用語に変換して処理を行ってもよい。
計算機システム110は、複数の計算機から構成されていたが、計算機システム110の各機能を実現する単数の計算機から構成されてもよい。
計算機システム110は、文中の単語列を適宜に変換することができる。例えば、「但し書き」のように、前文の内容などについての説明、条件、例外などを書き添えた文における単語列が変換されてもよい。また、「括弧書き」のように、括弧を用いてある説明を補足的に行う文における単語列が変換されてもよい。
100 計算機システムの構成図
110 計算機システム
120 ストレージ
130 文書
140 規則情報
150 外部送信承認処理用計算機
160 文書送信管理計算機
170 規則・文書紐づけ計算機
180 外部計算機システム
190 管理者
195 利用者

Claims (13)

  1. コンピュータを用いて行われる文章データ管理方法であって、
    規則を定める文章に用いる用語である第1の用語で記述された第1の文書の単語列1を、前記の第1の用語とは異なる用語である第3の用語で記述された前記単語列1に対応する単語列2に変換し、
    外部送信する文章に用いる用語である第2の用語で記述された第2の文書の単語列3を、前記の第3の用語で記述された前記単語列3に対応する単語列4に変換し、
    前記単語列2と前記単語列4を比較した結果をもって前記単語列1と前記単語列3の比較結果とすることにより、前記の第1の文書と前記の第2の文書を比較し、外部送信における前記規則の違反の可能性をチェックして前記の第2の文章の外部送信を決定する、
    ことを特徴とする文章データ管理方法。
  2. 請求項1に記載の文章データ管理方法であって、
    前記の第1の用語を変換元の用語とする用語変換辞書を用いて、前記単語列1を前記単語列2に変換し、
    前記の第2の用語を変換元の用語とする用語変換辞書を用いて、前記単語列3を前記単語列4に変換する、
    ことを特徴とする文章データ管理方法。
  3. 請求項2に記載の文章データ管理方法であって、
    前記の第1の用語を変換元の用語とする用語変換辞書を、前記の第1の用語で記述された文書群と、前記の第3の用語で記述された文書群と、を用いて機械学習により生成し、
    前記の第2の用語を変換元の用語とする用語変換辞書を、前記の第2の用語で記述された文書群と、前記の第3の用語で記述された文書群と、を用いて機械学習により生成する、
    ことを特徴とする文章データ管理方法。
  4. 請求項1に記載の文章データ管理方法であって、
    前記単語列1が第1言語に翻訳された後に、前記第1言語の前記第3の用語で記述された前記単語列2に、前記単語列1が変換され、
    前記単語列3が前記第1言語に翻訳された後に、前記第1言語の前記第3の用語で記述された前記単語列4に、前記単語列3が変換される、
    ことを特徴とする文章データ管理方法。
  5. 請求項1に記載の文章データ管理方法であって、
    前記第1の文書の項目が、前記第1の文書の他の項目、または、前記第1の文章および前記第2の文章とは異なる第3の文書の項目を参照するとき、前記第1の文書と前記第2の文書を比較する際に、前記第1の文書の項目から得た前記単語列1に参照先の項目から得た単語列を加えて比較する、
    ことを特徴とする文章データ管理方法。
  6. 請求項1に記載の文章データ管理方法であって、
    前記第1の文書が階層構造を有するとき、前記第1の文書と前記第2の文書を比較する際に、前記第1の文書の項目から得た単語列1に前記項目の上位階層の項目から得た単語列を加えて比較する、
    ことを特徴とする文章データ管理方法。
  7. 請求項6に記載の文章データ管理方法であって、
    前記の上位階層の項目から得た単語列に基づく比較を行う際、階層上での位置関係に応じて比較結果に重みづけをする、
    ことを特徴とする文章データ管理方法。
  8. 請求項1に記載の文章データ管理方法であって、
    前記第1の文書が階層構造を有するとき、前記第1の文書と前記第2の文書を比較する際に、前記第1の文書の項目から得た単語列1に前記項目の上位階層の項目から得た単語列を加えて比較し、且つ、
    前記第1の文書の項目が、前記第1の文書の他の項目、または、前記第1の文章および前記第2の文章とは異なる第3の文書の項目を参照するとき、前記第1の文書と前記第2の文書を比較する際に、前記第1の文書の項目から得た前記単語列1に参照先の項目、および、参照先の項目の上下階層の項目から得た単語列を加えて比較する、
    ことを特徴とする文章データ管理方法。
  9. 請求項1に記載の文章データ管理方法であって、
    前記比較の結果に基づく前記の第1の文章と前記の第2の文章の紐づき結果を管理者に提示し、
    前記管理者の承認または却下の結果をもって、前記第2の文書の送信を実施または停止する、
    ことを特徴とする文章データ管理方法。
  10. 請求項1に記載の文章データ管理方法をコンピュータに実行させるプログラム。
  11. 請求項9に記載の文章データ管理方法をコンピュータに実行させるプログラム。
  12. プロセッサを備え、
    前記プロセッサは、
    規則・文章紐づけプログラムを実行して、
    (1)規則を定める文章に用いる用語である第1の用語で記述された第1の文書の単語列1を、前記の第1の用語とは異なる用語である第3の用語で記述された前記単語列1に対応する単語列2に変換し、
    (2)外部送信する文章に用いる用語である第2の用語で記述された第2の文書の単語列3を、第3の用語で記述された前記単語列3に対応する単語列4に変換し、
    (3)前記単語列2と前記単語列4を比較した結果をもって前記単語列1と前記単語列3の比較結果とすることにより、前記の第1の文書と前記の第2の文書を比較し、
    (4)文章外部送信プログラムの実行において、外部送信における前記規則の違反の可能性をチェックして前記の第2文章の外部送信を決定する、
    ことを特徴とする文章データ管理システム。
  13. 請求項12に記載の文章データ管理システムであって、
    前記第2の文章を外部送信する場合、
    前記プロセッサは、
    外部送信承認処理プログラムを実行して、
    前記比較の結果を用いて、前記の第1の文章と前記の第2の文章の紐づき結果を管理者に提示し、
    文章外部送信プログラムを実行して、
    前記管理者の外部送信に対する承認または却下の結果をもって、前記第2の文書の外部送信を実施または停止する、
    ことを特徴とする文章データ管理システム。
JP2021086558A 2021-05-21 2021-05-21 文章データ管理方法、文章データ管理システム Pending JP2022179229A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021086558A JP2022179229A (ja) 2021-05-21 2021-05-21 文章データ管理方法、文章データ管理システム
US17/688,235 US12067372B2 (en) 2021-05-21 2022-03-07 Method and system for restricting transmission of sensitive information contained in a document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021086558A JP2022179229A (ja) 2021-05-21 2021-05-21 文章データ管理方法、文章データ管理システム

Publications (1)

Publication Number Publication Date
JP2022179229A true JP2022179229A (ja) 2022-12-02

Family

ID=84103912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021086558A Pending JP2022179229A (ja) 2021-05-21 2021-05-21 文章データ管理方法、文章データ管理システム

Country Status (2)

Country Link
US (1) US12067372B2 (ja)
JP (1) JP2022179229A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7496584B1 (ja) 2023-03-27 2024-06-07 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11816422B1 (en) * 2022-08-12 2023-11-14 Capital One Services, Llc System for suggesting words, phrases, or entities to complete sequences in risk control documents

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110395A (ja) 1997-09-30 1999-04-23 Toshiba Corp 類似文書検索装置および類似文書検索方法
AU2001265006A1 (en) * 2000-05-24 2001-12-03 The Haley Enterprises, Inc. A system for enterprise knowledge management and automation
US7903549B2 (en) * 2002-03-08 2011-03-08 Secure Computing Corporation Content-based policy compliance systems and methods
WO2015105994A1 (en) * 2014-01-08 2015-07-16 Callminer, Inc. Real-time conversational analytics facility
US10528880B2 (en) * 2016-10-11 2020-01-07 International Business Machines Corporation System, method and computer program product for detecting policy violations
US11321364B2 (en) * 2017-10-13 2022-05-03 Kpmg Llp System and method for analysis and determination of relationships from a variety of data sources
US10922358B2 (en) * 2017-10-13 2021-02-16 Kpmg Llp System and method for analysis of structured and unstructured data
US10606957B1 (en) * 2019-06-27 2020-03-31 Raivana, Inc. Method and system for translating natural language policy to logical access control policy

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7496584B1 (ja) 2023-03-27 2024-06-07 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Also Published As

Publication number Publication date
US12067372B2 (en) 2024-08-20
US20220374616A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
US9817888B2 (en) Supplementing structured information about entities with information from unstructured data sources
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
Bian et al. Cross‐language information access to multilingual collections on the internet
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
US20220374616A1 (en) Sentence data management method and sentence data management system
Sochenkov et al. Exactus like: Plagiarism detection in scientific texts
JP7165163B2 (ja) 発明文書分析システム及び発明文書分析処理プログラム
Prokopidis et al. A Neural NLP toolkit for Greek
US20220121694A1 (en) Semantic search and response
Atwan et al. The use of stemming in the Arabic text and its impact on the accuracy of classification
Haque et al. Approaches and trends of automatic bangla text summarization: challenges and opportunities
Chanda et al. The effect of stopword removal on information retrieval for code-mixed data obtained via social media
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
Etaiwi et al. Graph-based Arabic NLP techniques: a survey
MalarSelvi et al. Analysis of Different Approaches for Automatic Text Summarization
Mohammad et al. Automatic knowledge extraction from OCR documents using hierarchical document analysis
Kermani et al. Extractive persian summarizer for news websites
Panigrahi et al. A review of recent advances in text mining of Indian languages
Khalil et al. Challenges in information retrieval from unstructured arabic data
Zong et al. Data annotation and preprocessing
Liu et al. Domain phrase identification using atomic word formation in Chinese text
Z. Syed et al. Mining the Urdu language-based web content for opinion extraction
Chen The construction, use, and evaluation of a lexical knowledge base for English-Chinese cross-language information retrieval
US20230087132A1 (en) Creating action-trigger phrase sets
Rajeshwari et al. Development of Optimized Linguistic Technique Using Similarity Score on BERT Model in Summarizing Hindi Text Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240209