JP2006331329A

JP2006331329A - 言語処理装置、言語処理方法、言語処理プログラム及び記録媒体

Info

Publication number: JP2006331329A
Application number: JP2005157862A
Authority: JP
Inventors: Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2005-05-30
Filing date: 2005-05-30
Publication date: 2006-12-07

Abstract

【課題】個人情報や機密情報などを伏字処理する際、元の文字列と構文上同様に扱えるようにする。
【解決手段】本発明に係る言語処理装置は、入力情報の固有表現文字列を伏字文字列に置き換えて出力させるものであり、固有表現文字列を入力情報から抽出する固有表現抽出手段と、予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段と、抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、言語処理装置、言語処理方法、言語処理プログラム及び記録媒体に関し、例えば、文書中の文字列を伏字に置き換える言語処理装置、言語処理方法、言語処理プログラム及び記録媒体に適用し得る。

例えば、テキスト中に個人情報（プライバシー情報）や機密情報が含まれている場合、例えばテキストの翻訳や校正等の処理・加工を外部に依頼するなどそのテキストを流通させる際には、これらの個人情報や機密情報が分からないようにする必要がある。

従来、このように個人情報等を分からなくする方法として、例えば、文書中の個人情報等に相当する文字列を人手で検出し、その文字列を記号や他の文字列に置き換えるようにしている。

また、特許文献１には、あらかじめ単語辞書あるいは伏字にすべき文字列を定義したユーザ定義ファイルを用意し、単語辞書あるいはユーザ定義ファイルを参照して、文書中に含まれる固有名詞部分を伏字に変換する言語処理技術が開示されている。

また、特許文献２には、文書に含まれている固有名詞や技術専門用語等の単語を、「日付１」、「固有名詞２」等の翻訳に必要な文意を残したＩＤ付き伏字に変換する技術が開示されている。

特開２００２−２５９３６８号公報特開２００２−２３０１４６号公報

しかしながら、上述した従来の方法は以下のような問題がある。

上述したように、人手で伏字に置き換える方法は、人手によるものであるから伏字への変換作業に時間がかかる上、個人情報等の情報に係る部分の見落としなどの問題もある。

また、特許文献１の技術をそのまま利用した場合、伏字処理を行なった文字列について、例えば機械翻訳処理等の後の処理工程で当該文字列を参照できないという不都合が生じ得る。

例えば、「太郎は眠くて目を開けていられなかった。」という文を伏字処理により「Ｘは眠くて目を開けていられなかった。」と置き換えた場合、その文を翻訳しようとすると、Ｘが人であるか否か、男性であるか又は女性であるかの情報がなくなってしまう。

すなわち、“Ｘｗａｓｔｏｏｓｌｅｅｐｙｔｏｋｅｅｐｈｉｓｅｙｅｓｏｐｅｎ”とすべきところ、「ｈｉｓ」に相当する所有代名詞を何にすべきか決められないという不都合がある。

また、特許文献２の技術は、翻訳を人手で行なうことを想定にしているため、「日付１」、「固有名詞２」等の語への置き換えても、人手により適正に対応することはできるが、機械翻訳処理の対象とする場合、このような置き換えを行った文書を翻訳すると、例えば「固有名詞２」は「ｐｒｏｐｅｒｎｏｕｎ２」のように翻訳されてしまい、本来の意味（例えば属性が人間であるなど）を保持できないという不都合がある。

また、伏字をした後の文書を復元する場合には伏字を元の表現に正確に再現することが望ましい。

そのため、伏字部分の構文構造や意味情報等の必要な情報を変換後の文字列（伏字）に付与させることにより、伏字部分の２次加工処理を行う場合に、変換前の文字列と同様に扱えるようにし、文書の整合性を高めることができる言語処理装置、言語処理方法、言語処理プログラム及び記録媒体が求められている。

かかる課題を解決するために、第１の本発明に係る言語処理装置は、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理装置において、（１）予め定められた１又は複数の固有表現文字列を入力情報から抽出する固有表現抽出手段と、（２）予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、（３）固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段と、（４）抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段とを備えることを特徴とする。

第２の本発明の言語処理方法は、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理方法において、（１）予め定められた１又は複数の固有表現文字列を入力情報から抽出する固有表現抽出工程と、（２）予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、（３）固有表現抽出工程により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得工程と、（４）抽出された各固有表現文字列を、伏字文字列取得工程により取得した各伏字文字列に変換して出力させる文字列変換工程とを備えることを特徴とする。

第３の本発明の言語処理プログラムは、コンピュータに、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理プログラムにおいて、コンピュータを（１）予め定められた１又は複数の固有表現文字列を上記入力情報から抽出する固有表現抽出手段、（２）予め設定された複数の伏字文字列と各伏字文字列の属性情報とを対応付けて格納する伏字辞書、（３）固有表現抽出手段により抽出された各固有表現文字列の属性情報に基づいて伏字辞書を参照し、各固有表現文字列と各伏字文字列とのそれぞれの属性情報について同一又は対応する関係を有する伏字文字列を伏字辞書から取得する伏字文字列取得手段、（４）抽出された各固有表現文字列を、伏字文字列取得手段により取得した各伏字文字列に変換して出力させる文字列変換手段として機能させるための言語処理プログラムである。

第４の本発明の記録媒体は、第３の本発明の言語処理プログラムを記録したコンピュータに読み取り可能な記録媒体である。

本発明によれば、固有表現文字列の構文構造や意味情報等の必要な属性情報に基づいて、伏字文字列と置き換えることにより、伏字部分の２次加工処理を行う場合に、変換前の固有表現文字列と同様に扱えることができ、整合性を図ることができる。

（Ａ）第１の実施形態
以下、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。

本実施形態は、テキスト中の伏字にすべき部分を、同じ辞書情報を持つ他の単語に置換することにより、文書中の機密情報を保持し、かつ、伏字変換後のテキスト処理を文書の整合性を損なうことなく可能にする技術に関するものである。

以下では、便宜上、個人情報や機密情報に相当する文字列（単語列）を「固有表現」と記載して説明する。「固有表現」は、一般に言う固有名詞などに限らず、広く、個人情報や機密情報にかかわる表現であるものとする。

また、同様に、「固有表現」を変換して機密事項を隠蔽した表現を「伏字表現」と記載して説明する。「伏字表現」についても、一般の伏字表現（「Ｏ氏」「Ｘ社」など）に限らず、記号化、イニシャル化、他文字列（単語列）への置き換えを含む表現である。

（Ａ−１）第１の実施形態の構成
図１は、本実施形態に係るシステムの機能構成を示す機能ブロック図である。本実施形態に係るシステム４は、例えばパーソナルコンピュータ等の情報処理装置で実現されるものであり、その機能構成としてブロック図に示す。なお、以下で説明する本実施形態のシステム４の機能は、ソフトウェアとしてあるいはハードウェアとして実現させることができる。

図１に示すように、本実施形態に係るシステム４は、入出力装置１、処理装置２、記憶装置３を有して構成する。

入出力装置１は、入力部１１と出力部１２とを有するものである。

入力部１１は、入力された入力情報を取り込み、その入力情報を認識して処理装置２に与えるものである。入力部１１が入力する情報は、例えば、キーボードや、マウス等のポインティングデバイスや、スキャナーなどからの文字情報（例えば、テキスト）や、マイクなどが捕捉した音声情報などを適用することができる。また、入力部１１は、利用者により操作された各種操作情報を入力情報として取り込むものである。

出力部１２は、処理装置２から出力情報を受け取り、その出力情報を、例えばディスプレイなどに表示させるようにしたり、音声へ変換して音声出力させるようにしたり、ファイルとして出力させるようにするものである。

なお、入力部１１及び出力部１２は、図示しないネットワークに接続可能な通信機能を有するものとし、ネットワークに接続する端末装置と文字情報や音声情報などのデータを授受するものとしても良い。

記録装置３は、例えば、ハードディスクや光ディスクやメモリなどが該当し、単語辞書３２と、変換テーブル３１とを少なくとも記憶するものである。

単語辞書３２は、固有表現を構成する単語や固有表現である固有名詞を格納する辞書である。単語辞書３２は、格納する各単語に、その単語の品詞や属性を対応付けて格納するものである。なお、単語辞書３２の内容は、変更、追加、削除等することが可能である。

図２は、単語辞書３２の構成例を示す図である。図２に示すように、単語辞書３２は、「単語」、「品詞」、「属性」を管理項目とし、それぞれの単語についての対応情報（単語辞書情報）を格納する。ここで、「単語」は格納する単語を示し、「品詞」はその単語の品詞を示すものである。「属性」は、その単語を使用する場合の構文上必要な情報を示すものである。

図２において、例えば、「山田」は、その単語の「品詞」が「名詞」であることを示し、その「属性」が人名の姓を示すものであるため「人名（姓）」として管理する。また例えば、「太郎」は、その単語の「品詞」が「名詞」であることを示し、その「属性」が人名の男性を示すものであるため「人名（男性名）」として管理する。

このように、「品詞」及び「属性」を「単語」に対応付けて管理することで、ある単語を伏字へ変換する際に、変換前の単語の「品詞」及び「属性」と対応する単語を、その単語の伏字として決定することができる。これにより、伏字処理による変換後の伏字に変換前の文字列と構文的に同様な取り扱いをさせることができる。

なお、図２における「単語」の例は「品詞」が全て「名詞」の例を挙げたが、例えば、「形容詞」、「形容動詞」など他の品詞にも当然適用できる。また、「属性」についても、図２に示す例のほか、例えば、「人名（女性名）」、「小売業」などのように単語の業種・職種を示す属性などを適用できる。

また、図２の例に示す単語辞書３２は、格納している単語についての情報を一覧する形式で格納した場合を示すが、例えば、品詞別、属性別などのようにグループ別に格納するようにしてもよい。これにより、伏字とする単語の選択処理が容易になる。また、単語辞書３２は、例えば、「○○」等の記号や、「Ｘ」等の英字などを見出しとして格納しても良い。

変換テーブル３１は、変換前の固有表現と、変換後の伏字表現との対応関係を管理するものである。本実施形態では、変換テーブル３１は、後述する固有表現抽出部２１によりテキスト中から抽出された固有表現と、後述する伏字表現生成部２２により生成された伏字表現とを１対１に対応付けて管理するものである。このように固有表現と伏字表現との対応関係を管理することで、同一の固有表現について伏字処理の同一性を確保することができ、また伏字表現から固有表現への復元処理も確実にさせることができる。

図３は、変換テーブル３１の構成例を示す図である。図３に示すように、変換テーブル３１は、固有表現格納部３１１と、伏字文字列格納部３１２とを有して構成される。固有表現格納部３１１は、後述する固有表現抽出部２１により抽出された固有表現を格納し、伏字文字列格納部３１２は、後述する伏字表現生成部２２により生成された伏字表現を格納する。

図１に戻り、処理装置２は、例えば、演算装置、メモリ、制御部等から構成されており、本実施形態の主な機能手段として、固有表現抽出部２１、伏字表現生成部２２、文字列変換部２３を少なくとも有する。

固有表現抽出部２１は、入力部１１から与えられた情報に基づいて、テキスト中に含まれている固有表現を抽出し、その抽出した固有表現を変換テーブル３１に与えて固有表現格納部３１１に格納させるものである。ここで、固有表現を抽出する方法は、種々の方法が考えられるが、例えば、特開２００１−３１８７９２号公報に開示されているような方法を適用することができ、その方法の詳細な説明は省略する。

伏字表現生成部２２は、固有表現抽出部２１により抽出された固有表現を構成する文字列について、単語辞書３２を参照して固有表現を構成する文字列と属性が対応する単語を単語辞書３２から選択し、その選択した単語を変換テーブル３１に与えて伏字文字列格納部３１２に格納させるものである。

文字列変換部２３は、変換テーブル３１を参照して、テキスト中に含まれる固有表現を伏字表現に置き換え、伏字表現に変換した情報を出力部１２に与えるものである。

（Ａ−２）第１の実施形態の動作
次に、本実施形態のシステム４における伏字処理の動作について図面を参照して説明する。

以下では、まず、システム４における全体的な伏字処理の動作について説明した後、伏字表現生成部２２による伏字処理の詳細動作ついて説明する。

（Ａ−２−１）全体的な伏字処理の動作
図４は、本実施形態のシステム４における伏字処理の全体の流れを示すフローチャートである。

まず、テキストが伏字処理の対象として入力部１１に与えられる。入力部１１は、テキストを取り込み、その取り込んだテキスト情報を入力情報として処理装置２の固有表現抽出部２１に与える（Ｓ１）。

例えば、図５に示すように、「山田太郎は東京百貨店を訪問した。」というテキストが入力したものとする。

テキストが固有表現抽出部２１に与えられると、固有表現抽出部２１において、テキストは形態素解析処理が行なわれ、テキストを構成する単語に分割され、その単語の品詞、活用形などの構文上必要な情報が得られる（Ｓ２）。このとき、固有表現抽出部２１では、例えば形態素解析用の単語辞書や規則などを用いて所定の形態素解析処理がなされる。

例えば、図５の入力テキストは、図６に示すように、「山田／太郎／は／東京／百貨店／を／訪問／した／。／」と形態素解析処理がなされる。

固有表現抽出部２１において形態素解析処理が行なわれると、固有表現抽出部２１はテキストを走査し、固有表現と推定される文字列がテキストから抽出される（Ｓ３）。なお、上述したように、固有表現抽出部２１による固有表現の推定する方法は、例えば特開２００１−３１８７９２号公報に開示されている方法を適用することができる。

テキスト中に固有表現があると固有表現抽出部２１に判断されると、固有表現抽出部２１により、その固有表現が変換テーブル３１の固有表現格納部３１１に格納される。

例えば、図５の入力テキストにおいては、「山田太郎」が固有表現であると、固有表現抽出部２１により推定されて抽出される。そして、抽出された「山田太郎」が、図３に示すように、固有表現格納部３１１に格納される。

固有表現抽出部２１により固有表現が抽出されると、伏字表現生成部２２は変換テーブル３１の固有表現格納部３１１に文字列が格納されているか否かを確認し、固有表現の文字列が格納されている場合、その固有表現は伏字表現生成部２２により伏字表現への変換処理が行なわれる（Ｓ４、Ｓ５）。この固有表現の伏字表現への変換処理の詳細は後述する。また、伏字表現生成部２２により生成された伏字表現は、変換テーブル３１における当該固有表現に対応する伏字文字列格納部３１２に格納される。

例えば、伏字表現生成部２２において、図３の固有表現格納部３１１に格納されている「山田太郎」が「林一郎」と変換されると、「林一郎」は、図７に示すように、伏字文字列格納部３１２に格納される。

Ｓ４において、固有表現の文字列が変換テーブル３１の固有表現格納部３１１に格納されていない場合、伏字表現への変換はなされず、テキストが出力部１２から出力されて終了する（Ｓ４、Ｓ８）。

伏字表現生成部２２による伏字処理は、テキスト中に含まれるすべての固有表現の文字列に対して行なわれる（Ｓ６）。これにより、テキスト中に含まれるすべての固有表現についての伏字表現との対応関係を管理させることができる。

例えば、図５の入力テキストにおいて、「東京百貨店」も固有表現として抽出されて固有表現格納部３１１に格納される。そして、伏字表現生成部２２により「東京百貨店」が「大阪スーパー」に変換されると、「大阪スーパー」は、図７に示すように、伏字文字列格納部３１２に格納される。

すべての固有表現について伏字処理がなされると、文字列変換部２３により、変換テーブル３１が参照され、テキストにおける固有表現格納部３１１に格納されている固有表現の文字列は、伏字文字列格納部３１２に格納されている伏字表現に置き換えられる（Ｓ７）。

そして、文字列変換部２３により置き換えられた情報は、出力部１２に出力情報として与えられ、伏字に変換されたテキストが出力されて終了する（Ｓ８）。

例えば、文字列変換部２３は、図７の変換テーブル３１を参照して、図５の入力テキストを、図８に示すように、「林一郎は大阪スーパーを訪問した。」と変換される。

このように、伏字前の語が姓であれば他の姓に置き換え、名前であれば、性別までを一致させた他の名前に置き換えるということで、伏字部分を置き換えた文書をそのまま機械翻訳に処理させることができる。

以上のように、本実施形態では、テキストを伏字処理の対象とする入力情報として入力した場合であり、固有表現抽出部２１によりテキスト中の固有表現と認識される文字列が抽出され、単語辞書３２を参照して伏字表現生成部２２により固有表現と認識される文字列が別の単語列若しくは記号に変換され、固有表現と伏字表現とが変換テーブル３１に格納される。そして、文字列変換部２３により、変換テーブル３１を用いて、入力テキスト中の固有表現に該当する部分が伏字表現に置換されて出力される。

（Ａ−２−２）伏字表現の詳細処理
続いて、伏字表現生成部２２における伏字処理の詳細な動作について、図９のフローチャートを参照して説明する。

伏字表現生成部２２は、変換テーブル３１の固有表現格納部３１１に固有表現の文字列の有無を確認し、固有表現の文字列がある場合に、伏字表現へ変換する伏字処理が行なわれる。

図９において、固有表現格納部３１１に固有表現の文字列がある場合、固有表現格納部３１１に格納されている１つの固有表現の文字列が、伏字表現生成部２２により読み込まれる（Ｓ２１）。

例えば、図７の変換テーブル３１の固有表現格納部３１１から、「山田太郎」が伏字表現生成部２２に読み込まれる。

伏字表現生成部２２に１つの固有表現の文字列が読み込まれると、伏字処理を行なう順序番号ｉに「１」がセットされる（Ｓ２２）。

例えば、固有表現「山田太郎」を構成する単語のうち、まず単語「山田」について伏字処理を行なう場合、番号ｉに「１」がセットされる。これにより、伏字処理に係る処理順序を管理することができるので、固有表現の単語と伏字とを確実に対応させることができる。

Ｓ２２において、番号ｉ＝１がセットされると、単語辞書３２が参照されて、読み込まれた固有表現を構成する単語についての単語辞書情報が取り出される（Ｓ２３）。

例えば、読み出された固有表現「山田太郎」を構成する単語「山田」をキーとして図２に示す単語辞書３２を検索し、単語「山田」について「品詞」が「名詞」、「属性」が「人名（姓）」という単語辞書情報が取り出される。

固有表現を構成する単語の単語辞書情報が取得されると、単語辞書３２が参照され、その固有表現の単語と単語辞書情報が一致する単語が単語辞書３２から検索される（Ｓ２４）。

そして、単語辞書情報が一致する単語が検索されると、その検索した単語が取り出され、セットした番号ｉに基づいて格納順序に対応する伏字文字列格納部３１２に格納される（Ｓ２５）。このとき、単語辞書情報が一致する単語が複数ある場合、それら複数の単語の中から任意の単語を選択することができる。その単語を選択する方法として、例えば、単語辞書３２における格納順に従って選択する方法や、所定の優先順序を予め設けておいて優先順序に従って選択する方法や、乱数発生機能とサンプリング機能とを備え、発生させた乱数のうちサンプリングにより特定された数に対応する単語を選択する方法などが考えられる。

例えば、単語「山田」の単語辞書情報は、「品詞」が「名詞」であって「属性」が「人名（姓）」であるから、「品詞」が「名詞」であって「属性」が「人名（姓）」である単語が、単語辞書３２から検索される。ここでは、単語辞書情報が一致する単語として「林」が取り出される。そして、「山田」が格納されている固有表現格納部３１１と対応関係がある伏字文字列格納部３１２に「林」が格納される。

なお、本実施形態の例では、固有表現が名詞である場合を示すが、固有表現が原文中で活用や変化している場合には、その活用形や変化形、あるいは英語など場合には単複情報などの情報に応じて、伏字表現も活用等させるようにしてもよい。これにより、より固有表現に類似した伏字表現を生成させることができる。

変換テーブル３１の固有表現格納部３１１に格納されているすべての文字列について伏字処理がなされたか否かを判断し（Ｓ２６）、すべての文字列について伏字処理が終わっていない場合、変換テーブル３１における番号ｉに「１」を加えた番号ｉ＋１をセットし、変換テーブル３１において番号ｉ＋１に格納されている文字列についてＳ２３〜Ｓ２５の処理を行なう（Ｓ２７）。

例えば、番号ｉ＝２として、次の単語である固有表現「山田太郎」の「太郎」についても、Ｓ２３〜Ｓ２５に示す処理がなされ、例えば、「品詞」が「名詞」で、「属性」が「人名（男性名）」とする単語辞書情報を有する単語として、「一郎」が取り出され、伏字文字列格納部３１２の「林」の後に格納される。

これにより、個人情報である「山田太郎」を、原文の構造、意味属性を変化させることなく異なる別の単語「林一郎」と変換させることができる。これにより、例えば、テキストを外部に提供する必要がある場合でも、「山田太郎」という個人情報を開示せずに提供することができる。

また同様にして、変換テーブル３１の固有表現格納部３１１に格納されている「東京百貨店」についてもＳ２３〜Ｓ２５の処理がなされて、「大阪スーパー」が伏字文字列格納部３１２に格納される。

一方、固有表現格納部３１１のすべての文字列について伏字処理がなされた場合、伏字表現生成部２２による伏字処理は終了する（Ｓ２６）。

（Ａ−３）第１の実施形態の効果
以上のように、本実施形態によれば、個人情報や機密情報である固有表現を、任意の文字列に変換することにより、個人情報や機密情報を保護することができる。

また、本実施形態によれば、伏字表現生成部２２により生成された伏字表現は、原文における固有表現の構造、意味属性を保持しているので、伏字への変換後も、変換前と同様に文書の整合性が保つことができる。そのため、伏字変換後に文書処理を行なう場合でも変換前と同様に取り扱うことができる。

（Ｂ）第２の実施形態
次に、本発明の言語処理装置、言語処理方法、言語処理プログラム及び記録媒体の実施形態について図面を参照して説明する。

本実施形態では、伏字処理されたテキストを入力し、伏字表現を元の固有表現に置き換えて、元のテキストを出力する形態について説明する。

（Ｂ−１）第２の実施形態の構成
図１０は、本実施形態のシステム５の全体構成を示すブロック図である。図１０に示すように、本実施形態のシステム５も入出力装置１、処理装置２０、記憶装置３を有して構成される。

本実施形態のシステム５が、第１の実施形態のシステム４と異なる点は、処理装置２０の機能である。従って、以下では、処理装置２０の機能について詳細に説明し、第１の実施形態で説明した機能構成の詳細は省略する。

処理装置２０は、伏字表現抽出部２５、文字列変換部２６を有する。本実施形態では、第２の実施形態に係る処理装置２０の機能の特徴を示すため、伏字表現抽出部２５及び文字列変換部２６のみを有するものとして示すが、処理装置２０は、第１の実施形態の処理装置２の機能を有するものとしてもよい。

伏字表現抽出部２５は、入力部１１から伏字処理がされたテキストを受け取り、テキストを形態素解析処理を行なうものである。また、伏字表現抽出部２５は、変換テーブル３１を参照して、伏字表現の文字列を抽出するものである。

ここで、変換テーブル３１は、第１の実施形態で説明した変換テーブル３１に対応するものを適用する。

文字列変換部２３は、変換テーブル３１を参照して、テキストに含まれている伏字表現の文字列を固有表現の文字列に置き換えて、固有表現に変換したテキスト情報を出力部１２に与えるものである。

（Ｂ−２）第２の実施形態の動作
次に、伏字表現に変換されたテキストを入力し、伏字表現を元の固有表現に置き換える処理について図１１のフローチャートを参照して説明する。

まず、伏字処理がされたテキストが入力部１１に与えられる。入力部１１は、その伏字処理されたテキストを取り込み、その取り込んだテキスト情報を入力情報として処理装置２の伏字表現抽出部２５に与える（Ｓ３１）。

例えば、図８に示す伏字処理を行なったテキストである、「林一郎は大阪スーパーを訪問した。」が入力したものとする。

テキストが伏字表現抽出部２５に与えられると、伏字表現抽出部２５において、テキストは形態素解析処理が行なわれ、テキストを構成する単語に分割され、その単語の品詞、活用形などの構文上必要な情報が得られる（Ｓ３２）。このとき、伏字表現抽出部２５では、例えば形態素解析用の単語辞書や規則などを用いて所定の形態素解析処理がなされる。

例えば、図８の入力テキストは、「林／一郎／は／大阪／スーパー／を／訪問／した／。／」と形態素解析処理がなされる。

伏字表現抽出部２５において形態素解析処理が行なわれると、伏字表現抽出部２５はテキストを走査し、変換テーブル３１を参照して、伏字表現の文字列がテキストから抽出される（Ｓ３３）。

例えば、伏字表現抽出部２５は、変換テーブル３１の伏字文字列格納部３１２に格納されている文字列と一致する文字列がテキスト中にあるか否かを判断する。そして、伏字文字列格納部３１２に格納されている文字列と一致する文字列を伏字表現の文字列として抽出する。

文字列変換部２６により、変換テーブル３１が参照され、抽出された伏字表現の文字列は、固有表現格納部３１１の対応する固有表現の文字列に置き換えられる（Ｓ３４）。

そして、文字列変換部２６により置き換えられた情報は、出力部１２に出力情報として与えられ、伏字に変換されたテキストが出力されて終了する（Ｓ３５）。

例えば、文字列変換部２６は、図７の変換テーブル３１を参照して、図８の入力テキストを、図５に示すように、「山田太郎は東京百貨店を訪問した。」と変換し、元の原文を復元する。

（Ｂ−３）第２の実施形態の効果
以上のように、本実施形態によれば、変換テーブル３１を参照することで、伏字表現に変換したテキストを元の固有表現を有するテキストに復元することができる。

（Ｃ）他の実施形態
（Ｃ−１）上述した第１及び第２の実施形態では、固有表現の伏字処理の際に、単語辞書３２の見出しをそのまま利用したが、例えば、予め単語の活用形等の規則を備え、形態素解析後の活用形・変化形や単複情報（英語などの場合）などの情報を、伏字表現中の該当単語にコピーし、より類似した状態の伏字表現を生成することも可能である。

（Ｃ−２）上述した第１及び第２の実施形態の伏字処理では、変換後、伏字表現が自然な表現であるので、伏字であることを明確にするため、例えば、伏字部分に下線を引いたり、文字の色や大きさを変えたり、伏字が人名である場合には伏字の後に（仮名）等の文字をつけたりするなどの方法で、伏字であることを明示してもよい。

（Ｃ−３）固有表現を別の表現に置き換えて、固有表現を分からなくすることができれば、固有表現の伏字処理は種々の変形例が考えられる。

例えば、固有表現の伏字処理を複数回行なうようにしても良い。例えば、単語「山田」を「林」に置き換えた後、更に「林」を「鈴木」に変換できるようにしても良い。この場合、変換テーブル３１は、伏字処理の回数に応じた伏字文字列格納部を設けること必要となる。

また、例えば、固有表現である男性人名を故意に女性人名に置き換える等のように、「属性」が固有表現のものと逆のものとなるようにしても良い。このとき、「属性」が逆になるという規則を備え、変換テーブルにおいてその旨を示すようにしてもよい。

更に、例えば、数値などを固有表現とする場合には、その数値とは異なる数値を伏字として用いるようにしても良い。

第１の実施形態に係るシステムの全体構成を示すブロック図である。第１の実施形態に係る単語辞書の構成例を示す説明図である。第１の実施形態に係る変換テーブルの構成例を示す説明図である。第１の実施形態に係る伏字処理の全体的な流れを示すフローチャートである。第１の実施形態に係る入力テキスト例を示す図である。第１の実施形態に係る入力テキスト例の形態素解析処理の結果を示す図である。第１の実施形態に係る変換テーブルの構成例を示す説明図である。第１の実施形態に係る伏字処理による出力テキスト例を示す図である。第１の実施形態に係る伏字への変換処理の詳細動作を示すフローチャートである。第２の実施形態に係るシステムの全体構成を示すブロック図である。第２の実施形態に係る復元処理の動作を示すフローチャートである。

符号の説明

１…入力装置、２及び２０…処理装置、２１…固有表現抽出部、２２…伏字表現生成部、２３及び２６…文字列変換部、２５…伏字表現抽出部、３…記憶装置、３１…変換テーブル、３２…単語辞書、４及び５…システム。

Claims

入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理装置において、
予め定められた１又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出手段と、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、
上記固有表現抽出手段により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得手段と、
抽出された上記各固有表現文字列を、上記伏字文字列取得手段により取得した上記各伏字文字列に変換して出力させる文字列変換手段と
を備えることを特徴とする言語処理装置。
上記伏字文字列取得手段が取得した上記伏字文字列と、その上記伏字文字列に置き換えさせる上記固有表現文字列との対応関係を管理する変換管理テーブルを備え、
上記文字列変換手段が、上記変換管理テーブルを参照して、上記各固有表現文字列を上記伏字文字列に変換することを特徴とする請求項１に記載の言語処理装置。
上記属性情報は、それぞれの文字列が示す単語の品詞や、構文上必要な情報を示すことを特徴とする請求項１又は２に記載の言語処理装置。
入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理方法において、
予め定められた１又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出工程と、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書と、
上記固有表現抽出工程により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得工程と、
抽出された上記各固有表現文字列を、上記伏字文字列取得工程により取得した上記各伏字文字列に変換して出力させる文字列変換工程と
を備えることを特徴とする言語処理方法。
コンピュータに、入力された入力情報に含まれている固有表現文字列を伏字文字列に置き換え、その置き換えたものを出力情報として出力させる言語処理プログラムにおいて、
コンピュータを
予め定められた１又は複数の上記固有表現文字列を上記入力情報から抽出する固有表現抽出手段、
予め設定された複数の伏字文字列と上記各伏字文字列の属性情報とを対応付けて格納する伏字辞書、
上記固有表現抽出手段により抽出された上記各固有表現文字列の属性情報に基づいて上記伏字辞書を参照し、上記各固有表現文字列と上記各伏字文字列とのそれぞれの上記属性情報について同一又は対応する関係を有する上記伏字文字列を上記伏字辞書から取得する伏字文字列取得手段、
抽出された上記各固有表現文字列を、上記伏字文字列取得手段により取得した上記各伏字文字列に変換して出力させる文字列変換手段
として機能させるための言語処理プログラム。
請求項５に記載の言語処理プログラムを記録したコンピュータに読み取り可能な記録媒体。