JP2005338970A

JP2005338970A - 文章処理装置

Info

Publication number: JP2005338970A
Application number: JP2004153948A
Authority: JP
Inventors: Tomokazu Yago; 友和矢後
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-05-24
Filing date: 2004-05-24
Publication date: 2005-12-08

Abstract

【課題】専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できる文章処理装置を提供する。
【解決手段】シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続され、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割し、分割されて得られた単語のうち、専門語リストに含まれる単語を置換対象語として選択し、シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって汎用語リストに含まれる単語のいずれかに置換し、文章データのうち、置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する文章処理装置である。
【選択図】図１

Description

本発明は、専門用語を用いて記述された文章を、一般的な文章に読み替えて出力する文章処理プログラムに関する。

近年、科学技術はますます高度になり、それに伴って専門性も強くなりつつある。一方で、業種・職種・年代も様々な人々が産学官を超えて集結し、互いの専門分野の知識を活かしつつ、より高度な社会を形成しようとする動きも高まりつつある。こうした異業種・異職種・異年代の人物間のコミュニケーションの機会は、今後ますます増大すると考えられる。
特開平６−２７４３４７号公報特開２００２−２７８９６３号公報

しかしながら、業種等が異なる人物は一般に、互いに異なる専門分野に属しており、かつ各専門の分野は互いに高度に専門化されているため、そのような人物間のコミュニケーションはますます困難になりつつある。また、各専門分野について修得の途上にある児童・生徒・学生に対しては、専門的な文章を読み解くことがますます困難になっており、学習効率が低下しているのも実情である。

そこで、専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できれば、当該読み替えた文章を参考にすることで、専門外の人物や修得中の人物とのコミュニケーションが活性化されると想定される。

しかし、従来は、例えば特許文献１に開示されているように、コンピュータ処理可能な表現形式（エキスパートシステムのプログラムの形式）に変換する装置や、特許文献２に開示されているように、外国語と自国語との間で、既に正確に翻訳されて登録されている事例文を基本として、効率的かつ正確な翻訳を得ようとする技術は、開発されているものの、専門的な文章を平易な文章に変換するといった技術は考えられていなかった。

本発明は上記実情に鑑みて為されたもので、専門用語を用いて記述された文章から、比較的平易な単語を用いた文章に読み替えたものを生成できる文章処理装置を提供することを、その目的の一つとする。

上記従来例の問題点を解決するための本発明は、文章処理プログラムであって、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータに、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手順と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する手順と、前記シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手順と、を実行させ、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力することを特徴としている。

また、前記データベースは、複数の汎用語リストを保持しており、文章処理プログラムは、前記コンピュータに、さらに利用者からの指示により前記汎用語リストを選択的に読み出し、置換手順の実行の際に、当該読み出した汎用語リストを選択的に利用させることとしてもよい。この場合、前記専門語リストは、前記選択的に読出された汎用語リストに含まれる汎用語を、前記シソーラスデータベースに含まれる単語集合から除いて生成されることを特徴とする。さらに、前記シソーラスデータベースは、単語ごとに、その類義語と、同義語と、上位概念に相当する語と、下位概念に相当する語と、のうち少なくとも一つを関連づけてなることとしてもよい。

さらに、上記従来例の問題点を解決するための本発明は、文章処理方法であって、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータを用い、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する工程と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する工程と、前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換工程と、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する工程と、を実行させることを特徴としている。

さらに、上記従来例の問題点を解決するための本発明は、シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続された文章処理装置であって、処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手段と、前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する選択手段と、前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手段と、前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する出力手段と、を含むことを特徴としている。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態にかかる文章処理装置１は、図１に示すように、制御部１１と、記憶部１２と、ストレージ部１３と、操作部１４と、表示部１５と、通信部１６とを含んで構成されている。

制御部１１は、ＣＰＵ等を用いて実現でき、記憶部１２に格納されているプログラムに従って動作している。本実施の形態の制御部１１は、処理対象となる文章データを取得して、当該文章データを単語ごとに分割する分割処理と、分割されて得られた単語のうち、少なくとも一部を置換対象語として選択する選択処理と、置換対象語を他の単語に置換する置換処理と、を実行している。これらの各処理については、後に詳しく説明する。

記憶部１２は、ＲＡＭ（Random Access Memory）や、ＲＯＭ（Read Only Memory）などを含んで構成され、制御部１１によって実行されるプログラムを格納している。また、この記憶部１２は、制御部１１の処理において必要となるデータを保持するワークメモリとしても動作する。ストレージ部１３は、例えばハードディスクなどの記憶媒体を用いて実現される。このストレージ部１３は、制御部１１によって実行されるプログラムを保持している。プログラムの実行時には、制御部１１により、このストレージ部１３からプログラムが読出され、記憶部１２に格納される。また、このストレージ部１３は、類義語や同義語、上位概念語（広義語）、下位概念語（狭義語）等を互いに関連付けた、いわゆるシソーラスデータベースを保持している。

具体的にシソーラスデータベースは、見出語となる単語に対して、その類義乃至同義の語と、上位概念に相当する語と、下位概念に相当する語との少なくとも一つを関連付けてなるものである。また、このシソーラスデータベースにおいては、見出語に関する分類符号（予め定めた語群への分類結果を表す符号）や、関連語（類義、同義など意味上の関係はないが、一緒に使われやすい単語）、反意語などを含んでもよい。この場合、シソーラスデータベースは、例えばＪＩＣＳＴシソーラスなどと同様のデータ構造を有してもよい。

また、ストレージ部１３には、専門用語である単語を含む一覧が、専門語リストとして格納されている。さらにストレージ部１３には、専門用語でない単語を含む汎用語リストとして格納されている。なお、これら専門語リストや汎用語リストは、まず、一方を作成しておき、シソーラスデータベース内の単語から当該一方を除いた差集合を他方のリストとして生成してもよい。例えば汎用語リストを作成しておき、シソーラスデータベースに含まれる単語集合のうち、汎用語リストに含まれる単語集合を除いて差集合を生成し、この差集合に含まれる単語のリストを、専門語リストとしてストレージ部１３に格納してもよい。

操作部１４は、マウスやキーボードなどを含んで構成され、利用者の操作の内容を受け入れて、当該受け入れた操作の内容を制御部１１に出力する。表示部１５は、ディスプレイ等であり、制御部１１が出力する指示に従って情報を表示出力する。通信部１６は、例えばネットワークインタフェースであり、ネットワークを介して受信されるデータ（電子メールなど）を制御部１１に出力する。また、制御部１１から入力される指示に従ってデータ（電子メールなど）をネットワークを介して送信する。

ここで制御部１１によって実行される分割処理、選択処理、置換処理の各処理の内容について説明する。まず制御部１１は、処理対象となる文章データを取得する。ここで処理対象となる文章データは、例えば外部から受信される電子メールのデータであってもよいし、ウエブクライアントなどを用いて取得し、表示しているＨＴＭＬドキュメントなどであってもよい。ここでは、これらの文章データは、記憶部１２に格納されているものとする。

制御部１１は、当該処理対象となった文章データを単語ごとに分割する。この分割の処理は、例えば形態素解析の手法を用いて行うことができる。具体的には、制御部１１は、公知の形態素解析システム（例えば日本語の場合「茶筅（chasen）」（ＵＲＬ：http://chasen.aist-nara.ac.jp/hiki/ChaSen/、２００４年５月１２日検索）などが広く知られている）を用いて文章データを単語の列に分割し、分割後の単語列を記憶部１２に格納する。

制御部１１は次に、記憶部１２に格納された分割後の単語列に含まれる単語のうち、専門語リストに含まれる単語を置換対象語として選択する。そして、置換対象語の各々について、置換処理を行う。

置換処理は、制御部１１は、図２に示すように置換対象語の一つ（未選択のもの）を注目語として選択し（Ｓ１）、注目語に関連付けられた単語をシソーラスデータベースから検索する（Ｓ２）。そして、検索の結果得られた単語のうち、汎用語リストに含まれる単語を置換候補語として選択する（Ｓ３）。

ここで置換候補語が複数あるか否かを調べ（Ｓ４）、複数ある場合には、置換候補語の選抜処理を行う（Ｓ５）。ここで選抜処理は、例えば、予め定められた優先順位付与ルールに従って複数の置換候補語の各々に優先順位を付与し、そのうち最も高い優先順位となったものを選抜することによって行われる。具体的にこの優先順位付与ルールは、注目語との関係（類義・同義・広義・狭義の関係など）に基づいて、類義・同義を優先順位「１」、広義のものを優先順位「２」、狭義のものを優先順位「３」とし、優先順位の高いもの（この場合は数値の小さいもの）を選抜することとしてもよい。また、文字数の多少、平仮名・カタカナ・漢字の別、自国語と外来語・外国語の別などに基づいて優先順位を付与することとしてもよい。

またシソーラスデータベースが、グラフ構造（単語をノードとし、関連付けをリンクとした構造）を有している場合、注目語から置換候補語までのリンクの数を優先順位としてもよい。例えば、「計算機アーキテクチャ」との語の広義語として「計算機方式」が関連づけられており、「計算機方式」の語の狭義語として「計算機アーキテクチャ」と「ベクトル計算機」とが関連づけられているとするとき、「計算機アーキテクチャ」を置換対象語とすると、「計算機方式」が優先順位「１」、「ベクトル計算機」が優先順位「２」となる（図３）。

なお、制御部１１は、この選抜処理において、優先順位が同順となる複数の置換候補語が選抜された場合は、そのうちの一つをランダムに絞込んで選抜してもよいし、選抜された複数の置換候補語を「又は」などの語を介して連結して、「計算機方式、又は方式」などという置換候補語を生成してもよい。

制御部１１は、注目語と、処理Ｓ５の選抜処理により選抜された置換候補語（一つに選抜されたもの、または連結されて一つになっているもの）とを関連付けて記憶部１２に格納する（Ｓ６）。制御部１１は、さらに、注目語として未選択の置換対象語があるか否かを調べ（Ｓ７）、未選択のものがあれば（Ｙｅｓならば）、処理Ｓ１に戻って処理を続ける。

また、処理Ｓ７において未選択の置換対象語がなければ（Ｎｏならば）、つまりすべての置換対象語について処理を行った場合は、記憶部１２に格納されている単語列のうちの置換対象語を、当該置換対象語に関連付けて記憶部１２に格納された置換候補語に置換えて（Ｓ８）、当該置換え後の文章データを出力し、処理を終了する。

なお、処理Ｓ４において、置換候補語が複数でなかった場合は、当該単数の置換候補語を注目語に関連付けて記憶部１２に格納し（Ｓ１０）、処理Ｓ７に移行して処理を続ける。さらに置換候補語がない場合（置換対象語に関連づけられた単語のうちに汎用語リストに含まれるものがない場合）は、さらに、置換対象語に関連付けられた単語の各々を置換対象語として、さらにシソーラスデータベースを検索する処理を、汎用語リストに含まれる単語が見いだされるまで繰返して行う。

制御部１１は、出力された置換処理後の文章データを表示部１５に表示出力してもよいし、通信部１６を介して他の装置に送信してもよい。

次に、本実施の形態の文章処理装置１の動作例について説明する。具体的に、ここでは「この装置のアーキテクチャは、とても単純です」のような文章データが得られたものとする。制御部１１は、この文章データを単語に分割して、「この／装置／の／アーキテクチャ／は／、／とても／単純／です」といった単語群を生成する（ここでスラッシュ（／）が単語の区切り位置に相当する）。

制御部１１は、単語群に含まれるこれらの単語のうち、専門語リストに含まれる単語を選択する。ここでは、予め汎用語として「装置」や「単純」といった単語を含む汎用語リストが生成されており、シソーラスデータベースに含まれている単語のうち、これら汎用語リストに含まれる単語を除いて得た単語のリストを専門語リストとして生成するものとする。また、制御部１１は、予め、どのような文章にも含まれ得る単語（いわゆるストップワード）のリストを、ストップワードリストとして列挙して記憶部１２に保持しておき、このストップワードリストを参照して、生成した単語群からストップワードを除いてから専門語リストに含まれる単語を選択してもよい。

具体的に、「この」などの指示語や、「の」、「は」といった助詞、「です」などの助動詞、「とても」のような副詞・形容詞、「、」や「。」などの句読点、その他感嘆詞などはストップワードとして除いておく。従って、ここでは上記単語群のうち、「装置」、「アーキテクチャ」、「単純」について専門語リストに含まれるか否かを調べることになる。

既に例示したように、本実施の形態では「装置」、「単純」の各語は、いずれも汎用語リストに列挙されているので、専門語リストに含まれる語として選択される語は、「アーキテクチャ」のみとなる。

制御部１１は、この選択した語「アーキテクチャ」を置換対象語として、シソーラスデータベースから検索する。ここでＪＩＣＳＴシソーラスを参照すると、「アーキテクチャ」は、「計算機アーキテクチャ」として参照されるべき旨が記述されているので、制御部１１は改めて「計算機アーキテクチャ」をシソーラスデータベースから検索する。

すると「計算機アーキテクチャ」には、類語として「アーキテクチャ」が関連づけられ、狭義語（下位概念語）として、「ＭＩＭＤ」、「ＳＩＭＤ」、「システムアーキテクチャ」、「推論マシン」、「ＡＴＭＳ」、「並列推論マシン」が関連づけられ、広義語（上位概念語）として「計算機方式」及び「方式」が関連づけられていることが見いだされる。

制御部１１は、こうして見いだした単語の群から、汎用語リストに含まれる語を置換候補語として取り出す。ここでは汎用語として「方式」が関連づけられているものとする。つまり制御部１１は、置換候補語として「方式」を得る。

そして、制御部１１は、処理対象となった文章データを構成する単語のうち、置換対象語「アーキテクチャ」を置換候補語「方式」に置き換えた置換文章データ「この装置の方式は、とても単純です」を生成して、この置換文章データを表示部１５に表示する。

なお、本実施の形態における汎用語リストは、利用者の類型ごとに対応するなどして複数保持されていてもよい。例えば、学生向けの汎用語リストや、特定の分野の専門家向けの汎用語リストなどが考えられる。この場合は、制御部１１は、装置の利用者の類型を取得し（操作部１４から利用者自らの属する類型を特定する情報を入力してもらうなど）、当該取得した類型に対応する汎用語リストを選択的に読出して、シソーラスデータベース内の単語のうち、この読出した汎用語リストに含まれる語を除いて専門語リストを生成するようにしてもよい。また、利用者の類型ごとではなく、利用者ごとに汎用語リストを生成しておき、ストレージ部１３に格納しておき、利用者の指示操作に基づいて選択的に読出してもよい。このようにすれば、利用者ごとの知識の範囲に適した置換文章データが生成されるようになる。

また、ここまでの説明では汎用語リストや専門語リスト、シソーラスデータベース等は、ストレージ部１３に格納されているものとして説明したが、これらのリストやデータベースは、ネットワークを介してアクセス可能に接続されたコンピュータ装置などに格納されていてもよい。

本発明の実施の形態に係る文章処理装置の一例を表す構成ブロック図である。本発明の実施の形態に係る文章処理装置の処理内容例を表すフローチャート図である。シソーラスデータベースの構造例を模式的に表す説明図である。

符号の説明

１文章処理装置、１１制御部、１２記憶部、１３ストレージ部、１４操作部、１５表示部、１６通信部。

Claims

シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータに、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手順と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する手順と、
前記シソーラスデータベースを参照して、単語前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手順と、
を実行させ、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力することを特徴とする文章処理プログラム。
請求項１に記載の文章処理プログラムであって、
前記データベースは、複数の汎用語リストを保持しており、
文章処理プログラムは、前記コンピュータに、さらに利用者からの指示により前記汎用語リストを選択的に読み出し、置換手順の実行の際に、当該読み出した汎用語リストを選択的に利用させることを特徴とする文章処理プログラム。
請求項２に記載の文章処理プログラムであって、
前記専門語リストは、前記選択的に読出された汎用語リストに含まれる汎用語を、前記シソーラスデータベースに含まれる単語集合から除いて生成されることを特徴とする文章処理プログラム。
請求項１から３のいずれか一項に記載の文章処理プログラムであって、
前記シソーラスデータベースは、単語ごとに、その類義語と、同義語と、上位概念に相当する語と、下位概念に相当する語と、のうち少なくとも一つを関連づけてなることを特徴とする文章処理プログラム。
シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続されたコンピュータを用い、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する工程と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する工程と、
前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換工程と、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する工程と、
を実行させることを特徴とする文章処理方法。
シソーラスデータベースと、専門用語である単語を含む専門語リストと、専門用語でない単語を含む汎用語リストとを記憶するデータベースに接続された文章処理装置であって、
処理対象となる文章データを取得し、当該取得した文章データを単語ごとに分割する分割手段と、
前記分割されて得られた単語のうち、前記専門語リストに含まれる単語を置換対象語として選択する選択手段と、
前記シソーラスデータベースを参照して、前記選択された置換対象語の各々を、当該置換対象語に対応する単語であって前記汎用語リストに含まれる単語のいずれかに置換する置換手段と、
前記文章データのうち、前記置換対象語の各々を、専門用語でない、対応する単語に置換して得た置換文章データを出力する出力手段と、
を含むことを特徴とする文章処理装置。