JP2006331329A - 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 - Google Patents
言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2006331329A JP2006331329A JP2005157862A JP2005157862A JP2006331329A JP 2006331329 A JP2006331329 A JP 2006331329A JP 2005157862 A JP2005157862 A JP 2005157862A JP 2005157862 A JP2005157862 A JP 2005157862A JP 2006331329 A JP2006331329 A JP 2006331329A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- expression
- specific expression
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【課題】個人情報や機密情報などを伏字処理する際、元の文字列と構文上同様に扱えるようにする。
【解決手段】本発明に係る言語処理装置は、入力情報の固有表現文字列を伏字文字列に置き換えて出力させるものであり、固有表現文字列を入力情報から抽出する固有表現抽出手段と、予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段と、抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段とを備えることを特徴とする。
【選択図】 図1
【解決手段】本発明に係る言語処理装置は、入力情報の固有表現文字列を伏字文字列に置き換えて出力させるものであり、固有表現文字列を入力情報から抽出する固有表現抽出手段と、予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段と、抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段とを備えることを特徴とする。
【選択図】 図1
Description
本発明は、言語処理装置、言語処理方法、言語処理プログラム及び記録媒体に関し、例えば、文書中の文字列を伏字に置き換える言語処理装置、言語処理方法、言語処理プログラム及び記録媒体に適用し得る。
例えば、テキスト中に個人情報(プライバシー情報)や機密情報が含まれている場合、例えばテキストの翻訳や校正等の処理・加工を外部に依頼するなどそのテキストを流通させる際には、これらの個人情報や機密情報が分からないようにする必要がある。
従来、このように個人情報等を分からなくする方法として、例えば、文書中の個人情報等に相当する文字列を人手で検出し、その文字列を記号や他の文字列に置き換えるようにしている。
また、特許文献1には、あらかじめ単語辞書あるいは伏字にすべき文字列を定義したユーザ定義ファイルを用意し、単語辞書あるいはユーザ定義ファイルを参照して、文書中に含まれる固有名詞部分を伏字に変換する言語処理技術が開示されている。
また、特許文献2には、文書に含まれている固有名詞や技術専門用語等の単語を、「日付1」、「固有名詞2」等の翻訳に必要な文意を残したID付き伏字に変換する技術が開示されている。
しかしながら、上述した従来の方法は以下のような問題がある。
上述したように、人手で伏字に置き換える方法は、人手によるものであるから伏字への変換作業に時間がかかる上、個人情報等の情報に係る部分の見落としなどの問題もある。
また、特許文献1の技術をそのまま利用した場合、伏字処理を行なった文字列について、例えば機械翻訳処理等の後の処理工程で当該文字列を参照できないという不都合が生じ得る。
例えば、「太郎は眠くて目を開けていられなかった。」という文を伏字処理により「Xは眠くて目を開けていられなかった。」と置き換えた場合、その文を翻訳しようとすると、Xが人であるか否か、男性であるか又は女性であるかの情報がなくなってしまう。
すなわち、“X was too sleepy to keep his eyes open”とすべきところ、「his」に相当する所有代名詞を何にすべきか決められないという不都合がある。
また、特許文献2の技術は、翻訳を人手で行なうことを想定にしているため、「日付1」、「固有名詞2」等の語への置き換えても、人手により適正に対応することはできるが、機械翻訳処理の対象とする場合、このような置き換えを行った文書を翻訳すると、例えば「固有名詞2」は「proper noun2」のように翻訳されてしまい、本来の意味(例えば属性が人間であるなど)を保持できないという不都合がある。
また、伏字をした後の文書を復元する場合には伏字を元の表現に正確に再現することが望ましい。
そのため、伏字部分の構文構造や意味情報等の必要な情報を変換後の文字列(伏字)に付与させることにより、伏字部分の2次加工処理を行う場合に、変換前の文字列と同様に扱えるようにし、文書の整合性を高めることができる言語処理装置、言語処理方法、言語処理プログラム及び記録媒体が求められている。
かかる課題を解決するために、第1の本発明に係る言語処理装置は、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理装置において、(1)予め定められた1又は複数の固有表現文字列を入力情報から抽出する固有表現抽出手段と、(2)予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、(3)固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段と、(4)抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段とを備えることを特徴とする。
第2の本発明の言語処理方法は、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理方法において、(1)予め定められた1又は複数の固有表現文字列を入力情報から抽出する固有表現抽出工程と、(2)予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、(3)固有表現抽出工程により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得工程と、(4)抽出された各固有表現文字列を、伏字文字列取得工程により取得した各伏字文字列に変換して出力させる文字列変換工程とを備えることを特徴とする。
第3の本発明の言語処理プログラムは、コンピュータに、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理プログラムにおいて、コンピュータを(1)予め定められた1又は複数の固有表現文字列を上記入力情報から抽出する固有表現抽出手段、(2)予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書、(3)固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段、(4)抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段として機能させるための言語処理プログラムである。
第4の本発明の記録媒体は、第3の本発明の言語処理プログラムを記録したコンピュータに読み取り可能な記録媒体である。
本発明によれば、固有表現文字列の構文構造や意味情報等の必要な属性情報に基づいて、伏字文字列と置き換えることにより、伏字部分の2次加工処理を行う場合に、変換前の固有表現文字列と同様に扱えることができ、整合性を図ることができる。
(A)第1の実施形態
以下、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。
以下、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。
本実施形態は、テキスト中の伏字にすべき部分を、同じ辞書情報を持つ他の単語に置換することにより、文書中の機密情報を保持し、かつ、伏字変換後のテキスト処理を文書の整合性を損なうことなく可能にする技術に関するものである。
以下では、便宜上、個人情報や機密情報に相当する文字列(単語列)を「固有表現」と記載して説明する。「固有表現」は、一般に言う固有名詞などに限らず、広く、個人情報や機密情報にかかわる表現であるものとする。
また、同様に、「固有表現」を変換して機密事項を隠蔽した表現を「伏字表現」と記載して説明する。「伏字表現」についても、一般の伏字表現(「O氏」「X社」など)に限らず、記号化、イニシャル化、他文字列(単語列)への置き換えを含む表現である。
(A−1)第1の実施形態の構成
図1は、本実施形態に係るシステムの機能構成を示す機能ブロック図である。本実施形態に係るシステム4は、例えばパーソナルコンピュータ等の情報処理装置で実現されるものであり、その機能構成としてブロック図に示す。なお、以下で説明する本実施形態のシステム4の機能は、ソフトウェアとしてあるいはハードウェアとして実現させることができる。
図1は、本実施形態に係るシステムの機能構成を示す機能ブロック図である。本実施形態に係るシステム4は、例えばパーソナルコンピュータ等の情報処理装置で実現されるものであり、その機能構成としてブロック図に示す。なお、以下で説明する本実施形態のシステム4の機能は、ソフトウェアとしてあるいはハードウェアとして実現させることができる。
図1に示すように、本実施形態に係るシステム4は、入出力装置1、処理装置2、記憶装置3を有して構成する。
入出力装置1は、入力部11と出力部12とを有するものである。
入力部11は、入力された入力情報を取り込み、その入力情報を認識して処理装置2に与えるものである。入力部11が入力する情報は、例えば、キーボードや、マウス等のポインティングデバイスや、スキャナーなどからの文字情報(例えば、テキスト)や、マイクなどが捕捉した音声情報などを適用することができる。また、入力部11は、利用者により操作された各種操作情報を入力情報として取り込むものである。
出力部12は、処理装置2から出力情報を受け取り、その出力情報を、例えばディスプレイなどに表示させるようにしたり、音声へ変換して音声出力させるようにしたり、ファイルとして出力させるようにするものである。
なお、入力部11及び出力部12は、図示しないネットワークに接続可能な通信機能を有するものとし、ネットワークに接続する端末装置と文字情報や音声情報などのデータを授受するものとしても良い。
記録装置3は、例えば、ハードディスクや光ディスクやメモリなどが該当し、単語辞書32と、変換テーブル31とを少なくとも記憶するものである。
単語辞書32は、固有表現を構成する単語や固有表現である固有名詞を格納する辞書である。単語辞書32は、格納する各単語に、その単語の品詞や属性を対応付けて格納するものである。なお、単語辞書32の内容は、変更、追加、削除等することが可能である。
図2は、単語辞書32の構成例を示す図である。図2に示すように、単語辞書32は、「単語」、「品詞」、「属性」を管理項目とし、それぞれの単語についての対応情報(単語辞書情報)を格納する。ここで、「単語」は格納する単語を示し、「品詞」はその単語の品詞を示すものである。「属性」は、その単語を使用する場合の構文上必要な情報を示すものである。
図2において、例えば、「山田」は、その単語の「品詞」が「名詞」であることを示し、その「属性」が人名の姓を示すものであるため「人名(姓)」として管理する。また例えば、「太郎」は、その単語の「品詞」が「名詞」であることを示し、その「属性」が人名の男性を示すものであるため「人名(男性名)」として管理する。
このように、「品詞」及び「属性」を「単語」に対応付けて管理することで、ある単語を伏字へ変換する際に、変換前の単語の「品詞」及び「属性」と対応する単語を、その単語の伏字として決定することができる。これにより、伏字処理による変換後の伏字に変換前の文字列と構文的に同様な取り扱いをさせることができる。
なお、図2における「単語」の例は「品詞」が全て「名詞」の例を挙げたが、例えば、「形容詞」、「形容動詞」など他の品詞にも当然適用できる。また、「属性」についても、図2に示す例のほか、例えば、「人名(女性名)」、「小売業」などのように単語の業種・職種を示す属性などを適用できる。
また、図2の例に示す単語辞書32は、格納している単語についての情報を一覧する形式で格納した場合を示すが、例えば、品詞別、属性別などのようにグループ別に格納するようにしてもよい。これにより、伏字とする単語の選択処理が容易になる。また、単語辞書32は、例えば、「○○」等の記号や、「X」等の英字などを見出しとして格納しても良い。
変換テーブル31は、変換前の固有表現と、変換後の伏字表現との対応関係を管理するものである。本実施形態では、変換テーブル31は、後述する固有表現抽出部21によりテキスト中から抽出された固有表現と、後述する伏字表現生成部22により生成された伏字表現とを1対1に対応付けて管理するものである。このように固有表現と伏字表現との対応関係を管理することで、同一の固有表現について伏字処理の同一性を確保することができ、また伏字表現から固有表現への復元処理も確実にさせることができる。
図3は、変換テーブル31の構成例を示す図である。図3に示すように、変換テーブル31は、固有表現格納部311と、伏字文字列格納部312とを有して構成される。固有表現格納部311は、後述する固有表現抽出部21により抽出された固有表現を格納し、伏字文字列格納部312は、後述する伏字表現生成部22により生成された伏字表現を格納する。
図1に戻り、処理装置2は、例えば、演算装置、メモリ、制御部等から構成されており、本実施形態の主な機能手段として、固有表現抽出部21、伏字表現生成部22、文字列変換部23を少なくとも有する。
固有表現抽出部21は、入力部11から与えられた情報に基づいて、テキスト中に含まれている固有表現を抽出し、その抽出した固有表現を変換テーブル31に与えて固有表現格納部311に格納させるものである。ここで、固有表現を抽出する方法は、種々の方法が考えられるが、例えば、特開2001−318792号公報に開示されているような方法を適用することができ、その方法の詳細な説明は省略する。
伏字表現生成部22は、固有表現抽出部21により抽出された固有表現を構成する文字列について、単語辞書32を参照して固有表現を構成する文字列と属性が対応する単語を単語辞書32から選択し、その選択した単語を変換テーブル31に与えて伏字文字列格納部312に格納させるものである。
文字列変換部23は、変換テーブル31を参照して、テキスト中に含まれる固有表現を伏字表現に置き換え、伏字表現に変換した情報を出力部12に与えるものである。
(A−2)第1の実施形態の動作
次に、本実施形態のシステム4における伏字処理の動作について図面を参照して説明する。
次に、本実施形態のシステム4における伏字処理の動作について図面を参照して説明する。
以下では、まず、システム4における全体的な伏字処理の動作について説明した後、伏字表現生成部22による伏字処理の詳細動作ついて説明する。
(A−2−1)全体的な伏字処理の動作
図4は、本実施形態のシステム4における伏字処理の全体の流れを示すフローチャートである。
図4は、本実施形態のシステム4における伏字処理の全体の流れを示すフローチャートである。
まず、テキストが伏字処理の対象として入力部11に与えられる。入力部11は、テキストを取り込み、その取り込んだテキスト情報を入力情報として処理装置2の固有表現抽出部21に与える(S1)。
例えば、図5に示すように、「山田太郎は東京百貨店を訪問した。」というテキストが入力したものとする。
テキストが固有表現抽出部21に与えられると、固有表現抽出部21において、テキストは形態素解析処理が行なわれ、テキストを構成する単語に分割され、その単語の品詞、活用形などの構文上必要な情報が得られる(S2)。このとき、固有表現抽出部21では、例えば形態素解析用の単語辞書や規則などを用いて所定の形態素解析処理がなされる。
例えば、図5の入力テキストは、図6に示すように、「山田/太郎/は/東京/百貨店/を/訪問/した/。/」と形態素解析処理がなされる。
固有表現抽出部21において形態素解析処理が行なわれると、固有表現抽出部21はテキストを走査し、固有表現と推定される文字列がテキストから抽出される(S3)。なお、上述したように、固有表現抽出部21による固有表現の推定する方法は、例えば特開2001−318792号公報に開示されている方法を適用することができる。
テキスト中に固有表現があると固有表現抽出部21に判断されると、固有表現抽出部21により、その固有表現が変換テーブル31の固有表現格納部311に格納される。
例えば、図5の入力テキストにおいては、「山田 太郎」が固有表現であると、固有表現抽出部21により推定されて抽出される。そして、抽出された「山田 太郎」が、図3に示すように、固有表現格納部311に格納される。
固有表現抽出部21により固有表現が抽出されると、伏字表現生成部22は変換テーブル31の固有表現格納部311に文字列が格納されているか否かを確認し、固有表現の文字列が格納されている場合、その固有表現は伏字表現生成部22により伏字表現への変換処理が行なわれる(S4、S5)。この固有表現の伏字表現への変換処理の詳細は後述する。また、伏字表現生成部22により生成された伏字表現は、変換テーブル31における当該固有表現に対応する伏字文字列格納部312に格納される。
例えば、伏字表現生成部22において、図3の固有表現格納部311に格納されている「山田 太郎」が「林 一郎」と変換されると、「林 一郎」は、図7に示すように、伏字文字列格納部312に格納される。
S4において、固有表現の文字列が変換テーブル31の固有表現格納部311に格納されていない場合、伏字表現への変換はなされず、テキストが出力部12から出力されて終了する(S4、S8)。
伏字表現生成部22による伏字処理は、テキスト中に含まれるすべての固有表現の文字列に対して行なわれる(S6)。これにより、テキスト中に含まれるすべての固有表現についての伏字表現との対応関係を管理させることができる。
例えば、図5の入力テキストにおいて、「東京 百貨店」も固有表現として抽出されて固有表現格納部311に格納される。そして、伏字表現生成部22により「東京 百貨店」が「大阪 スーパー」に変換されると、「大阪 スーパー」は、図7に示すように、伏字文字列格納部312に格納される。
すべての固有表現について伏字処理がなされると、文字列変換部23により、変換テーブル31が参照され、テキストにおける固有表現格納部311に格納されている固有表現の文字列は、伏字文字列格納部312に格納されている伏字表現に置き換えられる(S7)。
そして、文字列変換部23により置き換えられた情報は、出力部12に出力情報として与えられ、伏字に変換されたテキストが出力されて終了する(S8)。
例えば、文字列変換部23は、図7の変換テーブル31を参照して、図5の入力テキストを、図8に示すように、「林一郎は大阪スーパーを訪問した。」と変換される。
このように、伏字前の語が姓であれば他の姓に置き換え、名前であれば、性別までを一致させた他の名前に置き換えるということで、伏字部分を置き換えた文書をそのまま機械翻訳に処理させることができる。
以上のように、本実施形態では、テキストを伏字処理の対象とする入力情報として入力した場合であり、固有表現抽出部21によりテキスト中の固有表現と認識される文字列が抽出され、単語辞書32を参照して伏字表現生成部22により固有表現と認識される文字列が別の単語列若しくは記号に変換され、固有表現と伏字表現とが変換テーブル31に格納される。そして、文字列変換部23により、変換テーブル31を用いて、入力テキスト中の固有表現に該当する部分が伏字表現に置換されて出力される。
(A−2−2)伏字表現の詳細処理
続いて、伏字表現生成部22における伏字処理の詳細な動作について、図9のフローチャートを参照して説明する。
続いて、伏字表現生成部22における伏字処理の詳細な動作について、図9のフローチャートを参照して説明する。
伏字表現生成部22は、変換テーブル31の固有表現格納部311に固有表現の文字列の有無を確認し、固有表現の文字列がある場合に、伏字表現へ変換する伏字処理が行なわれる。
図9において、固有表現格納部311に固有表現の文字列がある場合、固有表現格納部311に格納されている1つの固有表現の文字列が、伏字表現生成部22により読み込まれる(S21)。
例えば、図7の変換テーブル31の固有表現格納部311から、「山田 太郎」が伏字表現生成部22に読み込まれる。
伏字表現生成部22に1つの固有表現の文字列が読み込まれると、伏字処理を行なう順序番号iに「1」がセットされる(S22)。
例えば、固有表現「山田 太郎」を構成する単語のうち、まず単語「山田」について伏字処理を行なう場合、番号iに「1」がセットされる。これにより、伏字処理に係る処理順序を管理することができるので、固有表現の単語と伏字とを確実に対応させることができる。
S22において、番号i=1がセットされると、単語辞書32が参照されて、読み込まれた固有表現を構成する単語についての単語辞書情報が取り出される(S23)。
例えば、読み出された固有表現「山田 太郎」を構成する単語「山田」をキーとして図2に示す単語辞書32を検索し、単語「山田」について「品詞」が「名詞」、「属性」が「人名(姓)」という単語辞書情報が取り出される。
固有表現を構成する単語の単語辞書情報が取得されると、単語辞書32が参照され、その固有表現の単語と単語辞書情報が一致する単語が単語辞書32から検索される(S24)。
そして、単語辞書情報が一致する単語が検索されると、その検索した単語が取り出され、セットした番号iに基づいて格納順序に対応する伏字文字列格納部312に格納される(S25)。このとき、単語辞書情報が一致する単語が複数ある場合、それら複数の単語の中から任意の単語を選択することができる。その単語を選択する方法として、例えば、単語辞書32における格納順に従って選択する方法や、所定の優先順序を予め設けておいて優先順序に従って選択する方法や、乱数発生機能とサンプリング機能とを備え、発生させた乱数のうちサンプリングにより特定された数に対応する単語を選択する方法などが考えられる。
例えば、単語「山田」の単語辞書情報は、「品詞」が「名詞」であって「属性」が「人名(姓)」であるから、「品詞」が「名詞」であって「属性」が「人名(姓)」である単語が、単語辞書32から検索される。ここでは、単語辞書情報が一致する単語として「林」が取り出される。そして、「山田」が格納されている固有表現格納部311と対応関係がある伏字文字列格納部312に「林」が格納される。
なお、本実施形態の例では、固有表現が名詞である場合を示すが、固有表現が原文中で活用や変化している場合には、その活用形や変化形、あるいは英語など場合には単複情報などの情報に応じて、伏字表現も活用等させるようにしてもよい。これにより、より固有表現に類似した伏字表現を生成させることができる。
変換テーブル31の固有表現格納部311に格納されているすべての文字列について伏字処理がなされたか否かを判断し(S26)、すべての文字列について伏字処理が終わっていない場合、変換テーブル31における番号iに「1」を加えた番号i+1をセットし、変換テーブル31において番号i+1に格納されている文字列についてS23〜S25の処理を行なう(S27)。
例えば、番号i=2として、次の単語である固有表現「山田 太郎」の「太郎」についても、S23〜S25に示す処理がなされ、例えば、「品詞」が「名詞」で、「属性」が「人名(男性名)」とする単語辞書情報を有する単語として、「一郎」が取り出され、伏字文字列格納部312の「林」の後に格納される。
これにより、個人情報である「山田 太郎」を、原文の構造、意味属性を変化させることなく異なる別の単語「林 一郎」と変換させることができる。これにより、例えば、テキストを外部に提供する必要がある場合でも、「山田 太郎」という個人情報を開示せずに提供することができる。
また同様にして、変換テーブル31の固有表現格納部311に格納されている「東京 百貨店」についてもS23〜S25の処理がなされて、「大阪 スーパー」が伏字文字列格納部312に格納される。
一方、固有表現格納部311のすべての文字列について伏字処理がなされた場合、伏字表現生成部22による伏字処理は終了する(S26)。
(A−3)第1の実施形態の効果
以上のように、本実施形態によれば、個人情報や機密情報である固有表現を、任意の文字列に変換することにより、個人情報や機密情報を保護することができる。
以上のように、本実施形態によれば、個人情報や機密情報である固有表現を、任意の文字列に変換することにより、個人情報や機密情報を保護することができる。
また、本実施形態によれば、伏字表現生成部22により生成された伏字表現は、原文における固有表現の構造、意味属性を保持しているので、伏字への変換後も、変換前と同様に文書の整合性が保つことができる。そのため、伏字変換後に文書処理を行なう場合でも変換前と同様に取り扱うことができる。
(B)第2の実施形態
次に、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。
次に、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。
本実施形態では、伏字処理されたテキストを入力し、伏字表現を元の固有表現に置き換えて、元のテキストを出力する形態について説明する。
(B−1)第2の実施形態の構成
図10は、本実施形態のシステム5の全体構成を示すブロック図である。図10に示すように、本実施形態のシステム5も入出力装置1、処理装置20、記憶装置3を有して構成される。
図10は、本実施形態のシステム5の全体構成を示すブロック図である。図10に示すように、本実施形態のシステム5も入出力装置1、処理装置20、記憶装置3を有して構成される。
本実施形態のシステム5が、第1の実施形態のシステム4と異なる点は、処理装置20の機能である。従って、以下では、処理装置20の機能について詳細に説明し、第1の実施形態で説明した機能構成の詳細は省略する。
処理装置20は、伏字表現抽出部25、文字列変換部26を有する。本実施形態では、第2の実施形態に係る処理装置20の機能の特徴を示すため、伏字表現抽出部25及び文字列変換部26のみを有するものとして示すが、処理装置20は、第1の実施形態の処理装置2の機能を有するものとしてもよい。
伏字表現抽出部25は、入力部11から伏字処理がされたテキストを受け取り、テキストを形態素解析処理を行なうものである。また、伏字表現抽出部25は、変換テーブル31を参照して、伏字表現の文字列を抽出するものである。
ここで、変換テーブル31は、第1の実施形態で説明した変換テーブル31に対応するものを適用する。
文字列変換部23は、変換テーブル31を参照して、テキストに含まれている伏字表現の文字列を固有表現の文字列に置き換えて、固有表現に変換したテキスト情報を出力部12に与えるものである。
(B−2)第2の実施形態の動作
次に、伏字表現に変換されたテキストを入力し、伏字表現を元の固有表現に置き換える処理について図11のフローチャートを参照して説明する。
次に、伏字表現に変換されたテキストを入力し、伏字表現を元の固有表現に置き換える処理について図11のフローチャートを参照して説明する。
まず、伏字処理がされたテキストが入力部11に与えられる。入力部11は、その伏字処理されたテキストを取り込み、その取り込んだテキスト情報を入力情報として処理装置2の伏字表現抽出部25に与える(S31)。
例えば、図8に示す伏字処理を行なったテキストである、「林一郎は大阪スーパーを訪問した。」が入力したものとする。
テキストが伏字表現抽出部25に与えられると、伏字表現抽出部25において、テキストは形態素解析処理が行なわれ、テキストを構成する単語に分割され、その単語の品詞、活用形などの構文上必要な情報が得られる(S32)。このとき、伏字表現抽出部25では、例えば形態素解析用の単語辞書や規則などを用いて所定の形態素解析処理がなされる。
例えば、図8の入力テキストは、「林/一郎/は/大阪/スーパー/を/訪問/した/。/」と形態素解析処理がなされる。
伏字表現抽出部25において形態素解析処理が行なわれると、伏字表現抽出部25はテキストを走査し、変換テーブル31を参照して、伏字表現の文字列がテキストから抽出される(S33)。
例えば、伏字表現抽出部25は、変換テーブル31の伏字文字列格納部312に格納されている文字列と一致する文字列がテキスト中にあるか否かを判断する。そして、伏字文字列格納部312に格納されている文字列と一致する文字列を伏字表現の文字列として抽出する。
文字列変換部26により、変換テーブル31が参照され、抽出された伏字表現の文字列は、固有表現格納部311の対応する固有表現の文字列に置き換えられる(S34)。
そして、文字列変換部26により置き換えられた情報は、出力部12に出力情報として与えられ、伏字に変換されたテキストが出力されて終了する(S35)。
例えば、文字列変換部26は、図7の変換テーブル31を参照して、図8の入力テキストを、図5に示すように、「山田太郎は東京百貨店を訪問した。」と変換し、元の原文を復元する。
(B−3)第2の実施形態の効果
以上のように、本実施形態によれば、変換テーブル31を参照することで、伏字表現に変換したテキストを元の固有表現を有するテキストに復元することができる。
以上のように、本実施形態によれば、変換テーブル31を参照することで、伏字表現に変換したテキストを元の固有表現を有するテキストに復元することができる。
(C)他の実施形態
(C−1)上述した第1及び第2の実施形態では、固有表現の伏字処理の際に、単語辞書32の見出しをそのまま利用したが、例えば、予め単語の活用形等の規則を備え、形態素解析後の活用形・変化形や単複情報(英語などの場合)などの情報を、伏字表現中の該当単語にコピーし、より類似した状態の伏字表現を生成することも可能である。
(C−1)上述した第1及び第2の実施形態では、固有表現の伏字処理の際に、単語辞書32の見出しをそのまま利用したが、例えば、予め単語の活用形等の規則を備え、形態素解析後の活用形・変化形や単複情報(英語などの場合)などの情報を、伏字表現中の該当単語にコピーし、より類似した状態の伏字表現を生成することも可能である。
(C−2)上述した第1及び第2の実施形態の伏字処理では、変換後、伏字表現が自然な表現であるので、伏字であることを明確にするため、例えば、伏字部分に下線を引いたり、文字の色や大きさを変えたり、伏字が人名である場合には伏字の後に(仮名)等の文字をつけたりするなどの方法で、伏字であることを明示してもよい。
(C−3)固有表現を別の表現に置き換えて、固有表現を分からなくすることができれば、固有表現の伏字処理は種々の変形例が考えられる。
例えば、固有表現の伏字処理を複数回行なうようにしても良い。例えば、単語「山田」を「林」に置き換えた後、更に「林」を「鈴木」に変換できるようにしても良い。この場合、変換テーブル31は、伏字処理の回数に応じた伏字文字列格納部を設けること必要となる。
また、例えば、固有表現である男性人名を故意に女性人名に置き換える等のように、「属性」が固有表現のものと逆のものとなるようにしても良い。このとき、「属性」が逆になるという規則を備え、変換テーブルにおいてその旨を示すようにしてもよい。
更に、例えば、数値などを固有表現とする場合には、その数値とは異なる数値を伏字として用いるようにしても良い。
1…入力装置、2及び20…処理装置、21…固有表現抽出部、22…伏字表現生成部、23及び26…文字列変換部、25…伏字表現抽出部、3…記憶装置、31…変換テーブル、32…単語辞書、4及び5…システム。
Claims (6)
- 入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理装置において、
予め定められた1又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出手段と、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、
上記固有表現抽出手段により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得手段と、
抽出された上記各固有表現文字列を、上記伏字文字列取得手段により取得した上記各伏字文字列に変換して出力させる文字列変換手段と
を備えることを特徴とする言語処理装置。 - 上記伏字文字列取得手段が取得した上記伏字文字列と、その上記伏字文字列に置き換えさせる上記固有表現文字列との対応関係を管理する変換管理テーブルを備え、
上記文字列変換手段が、上記変換管理テーブルを参照して、上記各固有表現文字列を上記伏字文字列に変換することを特徴とする請求項1に記載の言語処理装置。 - 上記属性情報は、それぞれの文字列が示す単語の品詞や、構文上必要な情報を示すことを特徴とする請求項1又は2に記載の言語処理装置。
- 入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理方法において、
予め定められた1又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出工程と、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、
上記固有表現抽出工程により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得工程と、
抽出された上記各固有表現文字列を、上記伏字文字列取得工程により取得した上記各伏字文字列に変換して出力させる文字列変換工程と
を備えることを特徴とする言語処理方法。 - コンピュータに、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理プログラムにおいて、
コンピュータを
予め定められた1又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出手段、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書、
上記固有表現抽出手段により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得手段、
抽出された上記各固有表現文字列を、上記伏字文字列取得手段により取得した上記各伏字文字列に変換して出力させる文字列変換手段
として機能させるための言語処理プログラム。 - 請求項5に記載の言語処理プログラムを記録したコンピュータに読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005157862A JP2006331329A (ja) | 2005-05-30 | 2005-05-30 | 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005157862A JP2006331329A (ja) | 2005-05-30 | 2005-05-30 | 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006331329A true JP2006331329A (ja) | 2006-12-07 |
Family
ID=37552931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005157862A Pending JP2006331329A (ja) | 2005-05-30 | 2005-05-30 | 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006331329A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008117432A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 電子文書の秘匿化プログラム |
WO2008126149A1 (ja) * | 2007-03-30 | 2008-10-23 | Fujitsu Limited | 文書匿名化装置 |
JP2009015552A (ja) * | 2007-07-04 | 2009-01-22 | Dainippon Printing Co Ltd | 検索仲介システム |
JP2009075760A (ja) * | 2007-09-19 | 2009-04-09 | Nomura Research Institute Ltd | 事例情報管理システム及びプログラム |
JP2011008394A (ja) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | 文書情報生成装置、文書登録システム、及びプログラム |
JP2012103593A (ja) * | 2010-11-12 | 2012-05-31 | Internatl Business Mach Corp <Ibm> | 電子文書中の部分テキストデータをマスクする方法、装置、サーバ及びコンピュータプログラム |
JP5420099B1 (ja) * | 2013-08-20 | 2014-02-19 | 株式会社野村総合研究所 | 個人情報検出装置およびコンピュータプログラム |
JP2017162114A (ja) * | 2016-03-08 | 2017-09-14 | 富士通株式会社 | プログラム、情報処理方法および情報処理装置 |
JP2018180926A (ja) * | 2017-04-13 | 2018-11-15 | 株式会社日立システムズ | 日本語テキスト処理システム及び日本語テキスト処理方法 |
JP2019133467A (ja) * | 2018-01-31 | 2019-08-08 | 株式会社リコー | 情報処理装置、情報処理方法および情報処理プログラム |
-
2005
- 2005-05-30 JP JP2005157862A patent/JP2006331329A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008117432A1 (ja) * | 2007-03-27 | 2008-10-02 | Fujitsu Limited | 電子文書の秘匿化プログラム |
WO2008126149A1 (ja) * | 2007-03-30 | 2008-10-23 | Fujitsu Limited | 文書匿名化装置 |
JPWO2008126149A1 (ja) * | 2007-03-30 | 2010-07-15 | 富士通株式会社 | 文書匿名化装置 |
JP2009015552A (ja) * | 2007-07-04 | 2009-01-22 | Dainippon Printing Co Ltd | 検索仲介システム |
JP4550087B2 (ja) * | 2007-07-04 | 2010-09-22 | 大日本印刷株式会社 | 検索仲介システム |
JP2009075760A (ja) * | 2007-09-19 | 2009-04-09 | Nomura Research Institute Ltd | 事例情報管理システム及びプログラム |
JP2011008394A (ja) * | 2009-06-24 | 2011-01-13 | Fuji Xerox Co Ltd | 文書情報生成装置、文書登録システム、及びプログラム |
JP2012103593A (ja) * | 2010-11-12 | 2012-05-31 | Internatl Business Mach Corp <Ibm> | 電子文書中の部分テキストデータをマスクする方法、装置、サーバ及びコンピュータプログラム |
US9378649B2 (en) | 2010-11-12 | 2016-06-28 | International Business Machines Corporation | Masking partial text data in digital document |
JP5420099B1 (ja) * | 2013-08-20 | 2014-02-19 | 株式会社野村総合研究所 | 個人情報検出装置およびコンピュータプログラム |
JP2017162114A (ja) * | 2016-03-08 | 2017-09-14 | 富士通株式会社 | プログラム、情報処理方法および情報処理装置 |
JP2018180926A (ja) * | 2017-04-13 | 2018-11-15 | 株式会社日立システムズ | 日本語テキスト処理システム及び日本語テキスト処理方法 |
JP2019133467A (ja) * | 2018-01-31 | 2019-08-08 | 株式会社リコー | 情報処理装置、情報処理方法および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006331329A (ja) | 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体 | |
Sugandhi et al. | Sign language generation system based on Indian sign language grammar | |
AU2004218705B2 (en) | System for identifying paraphrases using machine translation techniques | |
Shirali-Shahreza et al. | Text steganography in chat | |
JP5364617B2 (ja) | 日本語仮想辞書 | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
JP2020080025A (ja) | 質問応答データ生成装置および質問応答データ生成方法 | |
Almasoud et al. | A proposed semantic machine translation system for translating Arabic text to Arabic sign language | |
Sapkal et al. | Transliteration of secured SMS to Indian regional language | |
JP2007207127A (ja) | 質問応答システム、質問応答処理方法及び質問応答プログラム | |
WO2022123637A1 (ja) | 文書処理システムおよび文書処理方法 | |
JP2019197336A (ja) | 学習データ生成装置、方法、およびプログラム | |
Psarologou et al. | Glossa—A formal language as a mapping mechanism of NL sentences into SPN state machine for actions/events association | |
JP5290218B2 (ja) | 文書平易化装置および平易化規則テーブル作成装置、ならびにプログラム | |
JP5851130B2 (ja) | 日本語のための音声キー | |
Linden | Contrastive Focus Capitalization: Nonstandard usages of capital letters in web-based English and their capital-I implications | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
Reid | Accounting for variability in Malayo-Polynesian pronouns: Paradigmatic instability or drift? | |
Wai et al. | Syntactic bank-based linguistic steganography approach | |
JP2003178087A (ja) | 外国語電子辞書検索装置および方法 | |
Cook | Lexical coinages in Mandarin Chinese and the problem of classification. | |
KR20020081912A (ko) | 웹상에서의 음성 서비스 방법 | |
JP2004118461A (ja) | 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体 | |
JP2007213157A (ja) | 用例文検索装置および用例文検索方法 | |
Ofoha | Towards Igbo Terminological Growth: The ICT Angle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060919 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070209 |