JP2008250651A

JP2008250651A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2008250651A
Application number: JP2007090848A
Authority: JP
Inventors: Maki Murata; 真樹村田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2007-03-30
Filing date: 2007-03-30
Publication date: 2008-10-16

Abstract

【課題】従来のテキスト処理プログラムにおいては、動作の高速性を維持しつつ、スパイラル開発を容易に実現できない、という課題があった。
【解決手段】コンピュータに、１以上の文章を有する文章群を受け付ける文章群受付ステップと、前記文章群に対して、所定の条件に合致する１以上の文字列を抽出する文字列抽出ステップと、文字列抽出ステップで抽出した１以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記加工した１以上の文字列を含む出力文章群を表示部に渡す出力文章群引渡ステップを実行させるためのプログラムであって、文章群受付ステップと出力文章群引渡ステップは、コンパイラ型言語で実現し、文字列抽出ステップと文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラムにより、動作の高速性を維持しつつ、スパイラル開発を容易に実現できる。
【選択図】図２

Description

本発明は、文章の集合等の情報に対して、テキスト処理を行う情報処理装置等に関するものである。

従来のテキスト処理を行うプログラムにおいて、通常、一のプログラム言語で実現されていた。ここでテキスト処理とは、例えば、所定の条件に合致する文字列を抽出し、当該文字列に対して強調表示を行ったり、書き換えを行ったりする処理である。

また、従来、探索に利用したキーワードなどが文書中のどこに存在するかを容易に認識でき、またキー操作を行わなくても文書ファイルの登録が可能な利便性の高い電子ファイリングシステムがあった（特許文献１参照）。

また、従来、文書の特徴や新情報のわかりやすい表示を行う情報処理装置があった。本装置は、文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域を設定する抽出・検出領域設定手段と、情報を格納する格納手段と、抽出手段とを備え、前記抽出手段は、入力された文書データの現在の前記検出領域以外の領域から全ての前記抽出単位に相当するものを抽出して前記格納手段に格納し、現在の前記検出領域において、前記格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力することを、前記検出領域ごとに繰り返す（特許文献２参照）。

また、従来、入力されたデータ中で抽出領域の説明に該当する場所を容易に見つけることができる情報処理装置があった。本装置は、抽出の単位を設定する抽出単位設定手段と、強調表示する抽出表現を設定する抽出表現設定手段と、抽出領域の場所を設定する抽出領域設定手段と、情報を格納する格納手段と、抽出手段とを備え、前記抽出手段は、前記抽出領域より前記抽出の単位に相当するものを抽出し、そのうち、前記抽出表現に該当するものを前記格納手段に格納し、入力されたデータを左から調べて現在の前記抽出の単位に相当するものと同じものが、前記格納手段に格納されている場合は、それを強調表示するものである（特許文献３参照）。
特開平６−２５９４８５号公報（第１頁、第１図等）特許第３６８２５３５号公報（第１頁、第１図等）特開２００４−２８０１７６号公報（第１頁、第１図等）

一方、例えば、所定の条件に合致する文字列を抽出し、当該文字列に対して強調表示を行ったり、書き換えを行ったりする処理を行うテキスト処理のプログラム開発において、処理対象の文章の入力処理と処理結果の文章の出力処理については、対象となる文章の種類やタイプなどにより、プログラムが変化しないことが好適である。入力処理と出力処理のプログラムが変更されるとなれば、プログラム開発者にとって、対象となる文章の種類やタイプなどにより、同様のプログラムの重複開発が必要であり、ユーザにとっても、ユーザインターフェイスが文章の種類やタイプなどにより異なり、使い勝手の悪いシステムになってしまう。つまり、入力処理部分と出力処理部分のソフトウェアは、ウォーターフォールモデルによる開発が好適であり、一度、完成したプログラムは変更しにくく、高速な実行ができるコンパイラ型のプログラム言語を用いた開発が好ましい。

また、テキスト処理部分のプログラムは、対象となる文章の種類やタイプなどにより、処理が異なる場合が多く、若干の修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト（デバッグや有効性の評価なども含む）を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが好適である。つまり、テキスト処理の部分プログラムは、多少の実行速度を犠牲にしても、トライ・アンド・エラーを容易に行えるインタプリタ型のプログラム言語を用いた開発が好ましい。なお、スパイラル開発手法とは、仕様が固まったところから開発し、何度か試行錯誤を繰り返して、チェック、および改善しながら、質の高いソフトウェアを開発できる、と言われている開発手法であり、いわゆる後戻りがないウオーターフォールモデルの開発手法と対比されて説明され得る。

しかし、テキスト処理等のテキスト処理を実現するプログラムのプログラム言語がすべて、コンパイラ型のプログラム言語であれば、テキスト処理部分の開発で、スパイラル開発が適用しにくい。また、テキスト処理等のテキスト処理を実現するプログラムのプログラム言語がすべて、インタプリタ型のプログラム言語であれば、全体の処理速度が、通常、遅くなる。

また、特許文献１から特許文献３において、複数のテキスト処理機能を有せず、ユーザが処理対象の文章群に応じて、一のテキスト処理機能を選択して、または、文章群の種類やタイプを認識し、自動的に一のテキスト処理機能を選択して、実行することができなかった。そのため、複数の種類の文章群に対して、適切なテキスト処理を行うことができなかった。

また、特許文献１から特許文献３において、箇条書きの項目を自動取得し、上下の順序を入れ替える、などの処理を行うことができなかった。

また、特許文献１から特許文献３において、表のレコードを自動取得し、上下のレコードの順序を入れ替える、などの処理を行うことができなかった。

また、特許文献１から特許文献３において、人名、地名を取得し、頻度情報を検索により取得し、頻度情報に応じて、人名、地名の文字属性を変えたり、付属文字を付与したりする、などの処理を行うことができなかった。

また、特許文献１から特許文献３において、所定の条件に合致した文字列を強調表示する機能を有するが、文字列の出現頻度を考慮せずに、所定の条件に合致した文字列を強調表示していたので、ユーザが強調表示をして欲しくない、一般的な用語も強調表示してしまい、真に強調表示して欲しい用語の強調表示の意義が少なくなる、という課題があった。

また、特許文献１から特許文献３において、所定の条件に合致した文字列を強調表示する機能を有するが、ユーザが強調表示をして欲しくない用語も強調表示してしまう、という課題があった。

本第一の発明のプログラムは、コンピュータに、1以上の文章を有する文章群を受け付ける文章群受付ステップと、前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す文章群引渡ステップを実行させるためのプログラムであって、前記文章群受付ステップと前記文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラムである。

かかる構成により、処理の高速性を担保しつつ、スパイラル開発が容易にできる。

また、本第二の発明のプログラムは、第一の発明に対して、前記文章群は、Ｗｅｂ上のホームページであり、前記文章群受付ステップは、Ｗｅｂブラウザが受信したＷｅｂ上のホームページを受け付け、前記文章群引渡ステップは、前記Ｗｅｂブラウザに出力文章群を渡すプログラムである。

また、本第三の発明の情報処理装置は、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、第一の所定の文字列に合致する１以上の文字列を抽出する第一文字列抽出部と、前記受け付けた文章群に対して、第二の所定の文字列に合致する１以上の文字列を抽出する第二文字列抽出部と、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて、それぞれ文字列属性を格納している文字列属性格納部と、前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した１以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工部と、前記文字列加工部で加工した１以上の文字列を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。

かかる構成により、ユーザの選択により、文章群タイプを決定し、文章タイプに応じた文章処理ができる。

また、本第四の発明の情報処理装置は、第三の発明に対して、文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部をさらに具備する情報処理装置である。

かかる構成により、自動的に、またはユーザの選択により、文章タイプを決定し、文章タイプに応じた文章処理ができる。

また、本第五の発明の情報処理装置は、第四の発明に対して、前記判断情報格納部は、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データを２以上格納しており、前記文章群タイプ決定部は、前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、前記判断情報格納部の２以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備する情報処理装置である。

かかる構成により、精度高く文章群タイプを自動決定できる。

また、本第六の発明の情報処理装置は、用語と当該用語に対して補足する用語である補足用語の対である変換用語情報を１以上格納している変換用語情報格納部と、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、前記変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。

かかる構成により、取得した文章群に対して、自動的に必要な情報の補足を行って、読みやすい、または有益な文章群を提供できる。

また、本第七の発明の情報処理装置は、第六の発明に対して、前記変換用語情報は、漢字列と漢字の読み仮名の対の情報である情報処理装置である。

かかる構成により、例えば、子供向けの文章群を自動的に作成できる。

また、本第八の発明の情報処理装置は、第六の発明に対して、前記変換用語情報は、書籍名と書籍の属性を示す属性情報である情報処理装置である。

かかる構成により、取得した文章群が有する書籍名に対して、自動的に書籍の属性を示す属性情報の補足を行って、読みやすい、または有益な文章群を提供できる。

また、本第九の発明の情報処理装置は、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部をさらに具備し、前記出力部は、前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置である。

かかる構成により、高出現頻度の用語を強調表示しないことにより、真に重要な用語のみ、強調表示できる。その結果、読みやすい文章群をユーザに提示できる。

また、本第十の発明の情報処理装置は、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部をさらに具備し、前記出力部は、前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置である。

かかる構成により、一度、強調表示された用語に対して、ユーザの指示により強調表示を停止できる。その結果、そのユーザにとって、真に読みやすい文章群をユーザに提示できる。

また、本第十一の発明の情報処理装置は、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置である。

かかる構成により、文章群が有する箇条書きの情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、ユーザの見やすい順に日付の情報を含む箇条書きの情報群の各項目を並べて表示してくれる。

また、本第十二の発明の情報処理装置は、第十一の発明に対して、前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する情報処理装置である。

かかる構成により、自動的にユーザが好む年代順に項目を並べて表示できる。

また、本第十三の発明の情報処理装置は、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置である。

かかる構成により、文章群が有する表の情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む表の情報群の各レコードを並べて表示してくれる。

また、本第十四の発明の情報処理装置は、第十三の発明に対して、前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する情報処理装置である。

また、本第十五の発明の情報処理装置は、に対して、装飾の対象の用語である装飾対象用語を１以上格納している装飾対象用語格納部と、前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を１以上格納している出現頻度別装飾情報格納部と、１以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群から、前記装飾対象用語格納部に格納されている装飾対象用語を取得する装飾対象用語取得部と、前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、前記出現頻度別装飾情報格納部から取得する装飾情報取得部と、前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。

かかる構成により、通常、ユーザが重要と考える用語を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。

また、本第十六の発明の情報処理装置は、第十五の発明に対して、前記装飾対象用語は、人名または地名である情報処理装置である。

かかる構成により、地名や人名などの用語を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。

本発明によるテキスト処理のプログラムによれば、例えば、効果的なプログラム開発ができる。

以下、プログラム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）

本実施の形態において、テキスト処理を行うプログラムにおいて、コンパイラ型のプログラム言語による開発と、インタプリタ型のプログラム言語による開発を組み合わせた、テキスト処理用プログラムのハイブリッド型の開発方法について説明する。

まず、本プログラムが実装された情報処理装置を含む情報処理システムについて説明する。図１は、情報処理装置を含む情報処理システムの概念図である。情報処理システムは、情報処理装置１１と、1以上のサーバ装置１２を具備する。情報処理装置１１は、ユーザが使用する情報端末であり、いわゆるパーソナルコンピュータ、ノートパソコン、ＰＤＡ、携帯電話等、文章群を表示できる装置であれば良い。サーバ装置１２は、文章群を格納しているサーバ装置であり、例えば、情報処理装置１１からの指示により、文章群（例えば、ＨＴＭＬやＸＭＬ等で記述された、タグなどにより構造化された文章群であるホームページ）を情報処理装置１１に送信する。情報処理装置１１とサーバ装置１２は、例えば、インターネット等の通信網により、相互に通信可能である。

図２は、情報処理システムのブロック図である。情報処理装置１１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７、出力部１１０８を具備する。

サーバ装置１２は、文章群格納部１２０１、指示受信部１２０２、文章群取得部１２０３、文章群送信部１２０４を具備する。

指示受付部１１０１は、ユーザから、文章群の取得の指示などの各種指示やデータの入力を受け付ける。文章群とは、1以上の文章を有する情報である。一文章群は、通常、一ファイルであるが、データベールの一テーブルの情報などでも良い。つまり、文章群のデータ構造は問わない。文章群の取得の指示は、例えば、ＵＲＬやサーバ装置１２のＩＰアドレスなど、サーバ装置１２と通信を行うための情報を含む。各種指示やデータの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。指示受付部１１０１は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

指示送信部１１０２は、指示受付部１１０１が受け付けた文章群の取得の指示を、指示に対応したサーバ装置１２に送信する。指示送信部１１０２は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

文章群受信部１１０３は、指示送信部１１０２が送信した指示に対応して、サーバ装置１２から文章群を受信する。文章群受信部１１０３は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

文章群受付部１１０４は、文章群受信部１１０３が受信した文章群を受け付ける。この受け付けの処理は、例えば、文字列抽出部を実現するプログラムの関数の呼び出す処理でも良いし、予め決められた記憶領域に書き込まれた文章群を読み出す処理などでも良い。文章群受付部１１０４は、通常、ＭＰＵやメモリ等から実現され得る。文章群受付部１１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。文章群受付部１１０４の処理は、文章群の入力処理であり、「ＶｉｓｕａｌＣ」「Ｃ言語」などのコンパイル型のプログラム言語で実現される。

文字列抽出部１１０５は、文章群受付部１１０４が受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する。ここで、文字列抽出部１１０５は、所定の条件を予め格納している、とする。所定の条件は、例えば、文字列そのものであったり、文字列を抽出するルールである。

また、文字列抽出部１１０５は、以下に示すような重要語を抽出しても良い。この重要語は、文字列加工部１１０６により加工される対象の文字列である。文字列抽出部１１０５は、文章群受付部１１０４が受け付けた文章群に現れる単語の中で、他の文書（他のサーバ装置が格納しているホームページなど）に現れない単語を重要語として抽出しても良い。また、文字列抽出部１１０５は、文章群受付部１１０４が受け付けた文章群を最初から順番にサーチし、初めて現れる単語を重要語として抽出しても良い。例えば、文章群が特許文書である場合、文字列抽出部１１０５は、重要語の抽出対象の請求項以外の請求項すべてからすべての単語を抽出し、抽出対象の請求項において他の請求項に現れない単語を特定し、重要語として抽出しても良い。また、例えば、文章群が特許文書である場合、文字列抽出部１１０５は、重要語の抽出対象の請求項よりも上の（請求項番号の若い）すべての請求項からすべての単語を取り出し、抽出対象の請求項において、当該抽出対象の請求項よりも上のすべての請求項にあらわれない単語を特定し、重要語として抽出しても良い。ここで、各請求項における重要語は、名詞や動詞などであることは好適である。ただし、あらかじめ指定した所定の単語は除く（例えば、「もの」「こと」などのあまり意味をなさない単語)ことは好適である。名詞や動詞などを取り出すには、形態素解析システムを利用することができる。なお、重要語として名詞だけを取り出すようにすることもできる。上記手法で特定した単語のうち名詞や動詞など（又は名詞だけ）を重要語とすることもできる。これにより、重要語が多くなりすぎるのを防ぐことができる。

文字列抽出部１１０５は、通常、ＭＰＵやメモリ等から実現され得る。文字列抽出部１１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。文字列抽出部１１０５の処理は、テキストのマッチング処理である。また、テキストのマッチング処理は、対象となる文章群の種類やタイプなどにより、その処理内容が異なる場合が多く、また、処理の効果の確認が必要である。つまり、文章群の種類やタイプなどにより、マッチングしたい文字列が異なる。従って、文字列抽出部１１０５の開発を行う場合に、若干のプログラムの修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト（デバッグや有効性の評価なども含む）を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが必要である。従って、文字列抽出部１１０５を実現するプログラムは、「ｐｅｒｌ」「ａｗｋ」などのインタプリタ型言語で実現される。なお、文字列抽出部１１０５等のインタプリタ型言語で実現されたプログラムも、最終の処理（仕様）が決定した後、コンパイルされも良い。かかることにより、処理も高速になる。

文字列加工部１１０６は、文字列抽出部１１０５が抽出した1以上の各文字列に対して、予め決められた加工を行う。そして、文字列加工部１１０６は、加工した文字列を含む文章群を記憶媒体（メモリなど）に配置する。ここで、加工とは、文字列の属性を変更する処理や、文字列をキーとして辞書などを検索して、文字列と対になっている他の文字列（「文字列が漢字の場合、その読みのひらがな」「文字列が書名の場合、その書籍の著者名」「文字列が住所の場合、その場所の最寄り駅」など）を取得し、取得した他の文字列を元の文字列に隣接する態様で付加する処理などである。文字列の属性とは、文字列の色、フォント、サイズ、背景色などである。文字列の属性を変更することにより、例えば、その文字列が他の文字列と比較して、強調表示される。

また、文章群が特許文書である場合、加工とは、例えば、各請求項に出現する文字列（重要語）が明細書本文に出現したとき、その文字列の前部（後部でもよい）に請求項の番号を付与することである。これにより、請求項の数が多くなっても、どの請求項であるか容易に認識することができる。また、文字列抽出部１１０５が重要語を抽出した場合に、当該重要語と請求項番号を対応付けてメモリ上に保持しておき、文字列加工部１１０６は、請求項番号と付与する色の情報を対応付けて保持しており、文字列加工部１１０６は、重要語で特許明細書本文を検索し、請求項番号に対応させて（請求項の重要語も色付けする）、明細書本文に出現した重要語にそれぞれ異なる色付けを行う（色属性を書き込む）。これにより、色でどの請求項に対応するか容易に判別できる。また、文字列抽出部１１０５は、明細書本文に出現した重要語が、複数の請求項に重複して出現する場合、該重要語の前部（後部でもよい）に請求項の番号を重複して付与する。これにより、複数の請求項で出現したことを容易に認識することができる。

また、図示しない入力手段により、任意の請求項番号を指定すると、その請求項番号に該当する明細書本文に出現した重要語のみが色付け表示されても良い。この場合、複数の請求項の番号を指定することも可能である。また、図示しない入力手段により、任意の請求項番号を指定すると、その請求項番号に該当する明細書本文に出現した重要語のみが強調文字表示（色付け表示以外）される。この場合、強調文字表示はそのままで複数の請求項の番号を指定することも可能である。また、図示しない入力手段により、任意の請求項番号の指定を行う場合、順次ローテーションさせるようにできる（例えば、スペースキー操作で次々と請求項番号が移って（更新）行く）。さらに、図示しない入力手段により、任意の請求項番号を指定したとき、段落番号で区切られた範囲内において、請求番号を付与した（又は色付けした）重要語の範囲がある（所定）閾値を超えた場合、その段落内を全て色付け表示することができる。この閾値は、ＯＦＦも含めて設定変更が可能である。

なお、この閾値としては、出現した重要語の数、割合、密度（ある段落の重要語の数／ある段落の全単語の数）等とすることができる。また、段落番号で区切られた範囲内（段落単位）でなく、行単位、頁単位、一定の文字数単位等の規定範囲とすることもできる。そして、この密度が高いところを、自動で画面表示（スクロール）することもできる。

また、各請求項に該当する重要語の強調表示は、明細書本文のすみ付き括弧の「発明を実施するための最良の形態」又は「実施例」等の説明文中とすることができる。

さらに、(1)重要語として、名詞のみを取り出すようにする、(2)重要語として、ひらがなを取り出さないようにする、(3)重要語として、ひらがな何文字以下の単語は取り出さないようにする、(4)重要語として、何文字以下の単語は取り出さないようにする、といった処理を行うことは好適である。このように上記(1)〜(4)（(1)〜(4)は単独でなく組み合わせることもできる）で取り出した、よりよい単語のみを使って強調表示を行うこともできる。

なお、上記では、特許の請求項と明細書の例について説明したが、複数の文書とその本文のように、特許以外の文書にも適用することができる。

文字列加工部１１０６は、通常、ＭＰＵやメモリ等から実現され得る。文字列加工部１１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。文字列加工部１１０６の処理は、テキスト処理である。また、テキスト処理は、対象となる文章群の種類やタイプなどにより、その処理内容が異なる場合が多く、また、処理の効果の確認が必要である。従って、文字列加工部１１０６の開発を行う場合に、若干のプログラムの修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト（デバッグや有効性の評価なども含む）を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが必要である。従って、文字列加工部１１０６を実現するプログラムは、「ｐｅｒｌ」「ａｗｋ」などのインタプリタ型言語で実現される。

文章群引渡部１１０７は、文字列加工部１１０６が加工した1以上の文字列を含む出力文章群を、後述する出力部１１０８に渡す。文章群引渡部１１０７は、例えば、出力部１１０８を構成するプログラムを、文章群を引数にして、呼び出す。文章群引渡部１１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。文章群引渡部１１０７の処理は、文章群の出力処理であり、文章群の種類やタイプにより、変化するべきではない。例えば、文章群の種類やタイプにより、文章群の出力処理が異なるとすれば、対象となる文章の種類やタイプなどにより、同様のプログラムの重複開発が必要であり、ユーザにとっても、ユーザインターフェイスが文章の種類やタイプなどにより異なり、使い勝手の悪いシステムになってしまう。そこで、文章群引渡部１１０７を実現するプログラムは、「ＶｉｓｕａｌＣ」「Ｃ言語」などのコンパイル型のプログラム言語で実現される。

出力部１１０８は、文章群引渡部１１０７から引き渡された文章群（加工済み）をディスプレイに表示する。出力部１１０８は、ディスプレイデバイスを含むと考えても含まないと考えても良い。出力部１１０８は、ディスプレイデバイスのドライバーソフトまたは、ディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。

なお、上記において、文章群は、Ｗｅｂ上のホームページ（ＨＴＭＬなどで記載されたファイル）であり、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部１１０８を実現するソフトウェアは、いわゆるＷｅｂブラウザである、ことは好適である。

また、かかる場合、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、および文章群引渡部１１０７を実現するプログラムは、Ｗｅｂブラウザにツールバーとして組み込まれる、ことは好適である。そして、この場合、文章群受付部１１０４を実現する文章群受付ステップは、Ｗｅｂブラウザが受信したＷｅｂ上のホームページを受け付ける。また、文章群引渡部１１０７を実現する出力文章群引渡ステップは、Ｗｅｂブラウザに出力文章群を渡す。

次に、情報処理システムの動作について説明する。まず、情報処理装置１１の動作について図３のフローチャートを用いて説明する。

（ステップＳ３０１）指示受付部１１０１は、文章群の取得指示を受け付けたか否かを判断する。文章群の取得指示を受け付ければステップＳ３０２に行き、文章群の取得指示を受け付けなければステップＳ３０１に戻る。なお、文章群の取得指示以外の指示を受け付けた場合は、図示しないが、情報処理装置１１は、その指示に従った動作を行う。

（ステップＳ３０２）指示送信部１１０２は、ステップＳ３０１で受け付けた文章群の取得指示を、サーバ装置１２に送信する。

（ステップＳ３０３）文章群受信部１１０３は、ステップＳ３０２における文章群の取得指示の送信に対応して、サーバ装置１２から文章群を受信したか否かを判断する。文章群を受信すればステップＳ３０４に行き、文章群を受信しなければステップＳ３０３に戻る。

（ステップＳ３０４）文章群受付部１１０４は、ステップＳ３０３で受信した文章群を受け付ける。そして、文章群受付部１１０４は、文字列抽出部１１０５に文章群を渡す。

（ステップＳ３０５）文字列抽出部１１０５は、所定の条件に合致する1以上の文字列を、文章群から抽出する。文字列の抽出は、文章群中の文字列の開始位置および終了位置、または開始位置と文字列、または開始位置と文字列の長さの情報の抽出でも良い。文字列抽出部１１０５は、例えば、抽出する文字列を特定するルールや文字列を格納しており、当該ルールや文字列を読み出し、読み出したルールや文字列を用いて、文章群を走査し、1以上の文字列を抽出する。本ステップの具体例は後述する。

（ステップＳ３０６）文字列加工部１１０６は、カウンタｉに１を代入する。

（ステップＳ３０７）文字列加工部１１０６は、ステップＳ３０５で抽出した文字列の中に、ｉ番目の文字列が存在するか否かを判断する。ｉ番目の文字列が存在すればステップＳ３０８に行き、ｉ番目の文字列が存在しなければステップＳ３１１に行く。

（ステップＳ３０８）文字列加工部１１０６は、ｉ番目の文字列を読み出し、当該文字列をキーとして文章群を検索し、マッチする１以上の文字列を取得し、当該１以上の各文字列に対して、予め決められた加工を行い、新しい文字列を取得する。

（ステップＳ３０９）文字列加工部１１０６は、ステップＳ３０７で取得した新しい文字列を、元のｉ番目の文字列に代えて、元のｉ番目の文字列の位置に挿入する。

（ステップＳ３１０）文字列加工部１１０６は、カウンタｉを１,インクリメントする。ステップＳ３０７に戻る。

（ステップＳ３１１）文章群引渡部１１０７は、ステップＳ３０９の処理を１回以上、繰り返すことにより得られた、新しい文章群を、出力部１１０８に渡す。

（ステップＳ３１２）出力部１１０８は、ステップＳ３１１で渡された文章群を、ディスプレイに表示する。この表示は、プロジェクターによる投影も含む概念である。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、サーバ装置１２の動作について説明する。サーバ装置１２の指示受信部１２０２が文章群の取得指示を受信すれば、文章群取得部１２０３は、当該指示に対応する文章群を文章群格納部１２０１から読み出す。そして、文章群送信部１２０４は、読み出した文章群を情報処理装置１１に送信する。

以下、本実施の形態における情報処理システムの具体的な動作について説明する。
（具体例１）

まず、情報処理装置１１が、文章群の有するタイトルに含まれる用語を抽出し、当該抽出した用語であり、文章群に出現する用語に対して強調表示する処理を行う例について説明する。

図４は、本具体例における情報処理装置１１のブロック図である。情報処理装置１１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７、出力部１１０８を具備する。また、文字列抽出部１１０５は、タイトル抽出手段１１０５１、単語抽出手段１１０５２、格納手段１１０５３、文章群中単語抽出手段１１０５４を具備する。文字列加工部１１０６は、タイトル別強調表示属性格納手段１１０６１、強調表示属性付与手段１１０６２を具備する。

指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部１１０８は、例えば、いわゆるＷｅｂブラウザである。

タイトル抽出手段１１０５１は、文章群のタイトルとその階層を抽出する。文章群は、例えば、ＨＴＭＬファイル（例えば、ホームページ）である場合、タイトル抽出手段１１０５１は、ＨＴＭＫファイル中のタイトルタグ＜Ｈ１＞や＜Ｈ２＞などを予め格納しており、当該格納しているタイトルタグで囲まれた（例えば、＜Ｈ１＞と＜／Ｈ１＞で囲まれた）文を抽出する。また、ＨＴＭＫファイル中のタイトルタグが階層化されている場合、その階層の情報（例えば、１段目を示す「１」や、２段目を示す「２」など）も取得する。

単語抽出手段１１０５２は、タイトル抽出手段１１０５１が抽出したタイトルの文（文字列）から、用語（例えば、重要語）を抽出してタイトルごとに格納手段１１０５３に、少なくとも一時的に書き込む。単語抽出手段１１０５２は、助詞などを除いた自立語や単語を抽出しても良い。また、単語抽出手段１１０５２は、助詞などを除いた自立語を用語として抽出し、当該用語で、本文章群、または１以上の外部装置の１以上のファイルを検索し、一定回数以下の出現頻度の用語を重要語として抽出しても良い。さらに、タイトルを示す文から専門用語を抽出し（公知技術である）、当該専門用語を重要語としても良い。単語抽出手段１１０５２は、例えば、「タイトル「Ｈ１」、重要語「ＨＭＭ」」などの情報を格納手段１１０５３に書き込む。

格納手段１１０５３は、タイトルを識別する情報（例えば、「Ｈ１」「Ｈ２」などのタグ）と、対にして、抽出された用語を格納し得る。

文章群中単語抽出手段１１０５４は、文章群の中から、格納手段１１０５３の用語を抽出する。文章群中単語抽出手段１１０５４は、まず、格納手段１１０５３の用語を読み出し、当該用語をキーとして、文章群を走査し、本用語が存在する箇所を示す情報（例えば、文章の先頭からのオフセット）を取得し、当該用語と箇所を示す情報を対にして、一時的にメモリに書き込む。

タイトル別強調表示属性格納手段１１０６１は、タイトルの階層毎に、どのような協調表示を行うかを示すタイトル別強調表示属性情報を格納している。タイトル別強調表示属性情報は、例えば、タイトルの階層を示すタグ（例えば、「Ｈ１」「Ｈ２」などのタグ）と、協調表示の属性値（例えば、＜ｃｏｌ＝ｒｅｄ＞、＜ｃｏｌ＝ｂｌｕｅ＞、＜ｆｏｎｔ＝ｂｏｌｄ＞など）を対に有する情報である。また、協調表示の属性値は、他の文字と視覚的に区別できるように、文字の色やフォントやサイズや背景色や下線の有無やイタリック体にする、などの文字属性を示す情報である。

強調表示属性付与手段１１０６２は、文章群中単語抽出手段１１０５４が抽出した各用語に対して、対応するタイトルの階層の情報を取得し、当該タイトルの階層に対応するタイトル別強調表示属性情報を取得する。そして、強調表示属性付与手段１１０６２は、文章群中単語抽出手段１１０５４が抽出した各用語（文字列）の属性値として、取得したタイトル別強調表示属性情報を付与する。

タイトル抽出手段１１０５１、単語抽出手段１１０５２、文章群中単語抽出手段１１０５４、強調表示属性付与手段１１０６２は、通常、ＭＰＵやメモリ等から実現され得る。タイトル抽出手段１１０５１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは、インタプリタ型言語で実装され、記録媒体に記録されている。

格納手段１１０５３、タイトル別強調表示属性格納手段１１０６１は、ハードディスク等の不揮発性の記録媒体が好適であるが、ＲＡＭ等の揮発性の記録媒体でも実現可能である。

以下、文字列抽出部１１０５が行う文字列抽出処理（上記のステップＳ３０５）を、図５のフローチャートを用いて説明する。

（ステップＳ５０１）文字列抽出部１１０５は、予め格納しているタグであり、タイトルを示すタグを読み出す。

（ステップＳ５０２）文字列抽出部１１０５は、文章群の中から、タイトルを示すタグで囲まれた文（例えば、＜Ｈ１＞と＜／Ｈ１＞で囲まれた文）と、そのタイトルの階層の情報を取得する。なお、かかる処理は、公知のテキスト処理であり、例えば、Ｗｅｂブラウザで実装されているＨＴＭＬパーサの処理である。また、文字列抽出部１１０５は、文章群から、タイトルの文と、階層の情報の対の情報を１組以上、取得し、メモリ上に配置する。

（ステップＳ５０３）文字列抽出部１１０５は、カウンタｉに１を代入する。

（ステップＳ５０４）文字列抽出部１１０５は、ステップＳ５０２で取得した文の中にｉ番目の文が存在するか否かを判断する。ｉ番目の文が存在すればステップＳ５０５に行き、ｉ番目の文が存在しなければ上位処理にリターンする。

（ステップＳ５０５）文字列抽出部１１０５は、ｉ番目の文から用語（例えば、重要語）を抽出する。なお、文字列抽出部１１０５は、例えば、ｉ番目の文から自立語のみを抽出する。また、自立語を抽出する処理は公知技術であるので、詳細な説明を省略する。

（ステップＳ５０６）文字列抽出部１１０５は、ｉ番目の文に対応する階層の情報を取得し、当該階層の情報と、ステップＳ５０５で取得した１以上の用語を対応付けて、メモリ上に配置する。

（ステップＳ５０７）文字列抽出部１１０５は、カウンタｉを１、インクリメントする。

なお、図５のフローチャートにおいて、タイトルを示すタグを用いて、タイトルを示す文を抽出した。しかし、文字列抽出部１１０５は、タイトルの文の文字属性（サイズ、色、フォントなど）が他の文字列と区別できる場合、当該文字属性を用いてタイトルの文を抽出しても良い。また、文字列抽出部１１０５は、最初の１行をタイトルの文であるとして、抽出しても良い。その他、タイトルの抽出方法は問わない。

次に、文字列加工部１１０６が行う文字列加工処理（上記のステップＳ３０８）を、図６のフローチャートを用いて説明する。

（ステップＳ６０１）文字列加工部１１０６は、ｉ番目の文字列（用語）に対応する階層の情報を取得し、メモリ上に配置する。

（ステップＳ６０２）文字列加工部１１０６は、ステップＳ６０１で取得した階層の情報に対応する強調表示属性情報を取得し、メモリ上に配置する。

（ステップＳ６０３）文字列加工部１１０６は、カウンタｉに０を代入する。

（ステップＳ６０４）文字列加工部１１０６は、ｉｂｙｔｅ目から、ｉ番目の文字列長分までの文字列を、文章群から読み出す。

（ステップＳ６０５）文字列加工部１１０６は、ｉ番目の文字列と、ステップＳ６０４で読み出した文字列を比較する。

（ステップＳ６０６）文字列加工部１１０６は、ステップＳ６０５における比較結果が、一致する、との結果であるか否かを判断する。一致すればステップＳ６０７に行き、一致しなければステップＳ６０８に行く。

（ステップＳ６０７）文字列加工部１１０６は、ステップＳ６０４で読み出した文字列の文字属性として、ステップＳ６０２で取得したる強調表示属性情報を追記する。

（ステップＳ６０８）文字列加工部１１０６は、カウンタｉを１、インクリメントする。

（ステップＳ６０９）文字列加工部１１０６は、処理を終了するか否か（読み出している文章群が終了か否か、またはＥＯＦであるか否か）を判断する。処理を終了するとの判断であれば、上位処理にリターンし、終了ではないとの判断であればステップＳ６０４に戻る。

なお、図５の用語抽出において、以下の形態素解析システムを用いても良い。形態素解析システムは、日本語を単語に分割するために使用できるシステムである。ここでは、形態素解析システムの一つであるChaSenについて説明する（奈良先端大で開発されている形態素解析システムであり、茶筌http://chasen.aist-nara.ac.jp/index.html.jpで公開されている）。

ChaSenは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校ガッコウ学校名詞−一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本型
ＥＯＳ
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞が抽出表現の指定に用いられる。

次に、英語のstemmer （ステマー）について説明する。単語抽出手段１１０５２で単語を抽出するために、英語では単語はわかち書きされているので、単語を基本形式に戻すstemmingをするだけでよい。このstemmingをするアルゴリズムとしては有名なPorterのものがある。（ Porter, M.F., 1980, An algorithm for suffix stripping, Program, 14(3) :130-137 参照）。

また、英語の文で単語に品詞を付けるシステム（英語の品詞タグ付けシステム）としては、Brill の文献が有名である。なお、出力の表現は、前記ChaSenと同様である。（EricBrill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21,No.4,p.543-565,1995.参照）。

次に、本具体例１における、情報処理装置１１の具体的な動作について説明する。

図７は、色分けによる強調表示の説明図である。図７において、入力された文章群の第１階層Ｈ１のタイトルのタイトル文Ａがあり、第２階層Ｈ２のタイトルのタイトル文Ｂ、Ｃとそれぞれの本文Ｂ、Ｃがあるとする。そして、タイトル文Ａからは重要語Ａが抽出され、タイトル文Ｂからは重要語Ｂが抽出され、タイトル文Ｃからは重要語Ｃが抽出されたとする。ここで、重要語ＡはＸ色、重要語Ｂ、ＣはＹ色で強調表示するものとする。つまり、タイトル別強調表示属性格納手段１１０６１が「Ｈ１，Ｘ色」「Ｈ２，Ｙ色」というタイトル別強調表示属性情報を格納している。また、文字列抽出部１１０５は、予めタグ「Ｈ１」「Ｈ２」を格納している。

また、タイトル文Ｂの本文Ｂでは、重要語Ａと重要語ＢがそれぞれＸ色、Ｙ色で強調表示される。タイトル文Ｃの本文Ｃでは、重要語Ａと重要語ＣがそれぞれＸ色、Ｙ色で強調表示される。この本文Ｃでは、同じ階層の他のタイトルの重要語である重要語Ｂが出てきても強調表示はされない。

このように、タイトルの重要語は、そのタイトルがカバーする本文のみで強調表示されることになる。

次に、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７として機能するプログラムであるツールバーについて説明する。ツールバーの本体の部分（インタフェース部分、ＷＥＢ情報の取得表示などであり、文章群受付部１１０４と文章群引渡部１１０７に対応する部分）は visual cなどのコンパイル型のプログラミング言語で開発し、ツールバーの外側の部分であるテキスト処理（文の文字列処理であり、文字列抽出部１１０５、文字列加工部１１０６に対応する部分）は、Perlなどのインタープリタ型のプログラミング言語で開発する。

Perlは、インタプリター型の言語（事前にコンパイルせずに、実行時にコンパイルして動作する。速度は遅いがメインテナス、システム構築が容易）であり、また、正規表現を含む文字列処理に便利なものである。

ツールバー本体（インタフェース部分、ＷＥＢ情報の取得表示など) では、ＨＴＭＬ（hypertext markup language ）の表示を行う。テキスト処理を、正規表現を含む文字列処理が可能なインタプリター型のプログラミング言語では、元のＨＴＭＬを変換して新しいＨＴＭＬを作る。ツールバー本体（インタフェース部分、ＷＥＢ情報の取得表示など) で新しいＨＴＭＬの表示を行うようにする。ＨＴＭＬ内部に、強調表示したい単語にはＨＴＭＬのタグで色付けなど行う。

また、格納手段１１０５３を外部（交換可能）に持って、格納手段１１０５３のファイル（データ）で階層ごとに単語の色を定義して、それに基づいて強調表示することもできる。例えば、格納手段１１０５３を入れ換えれば強調表示する階層の色を変更することができる。なお、格納部として、副詞辞書、人名辞書等を入れて人名や副詞等の強調表示を行うこともできる。

さらに、別のperlプログラムを外部（交換可能）に持って、そのプログラムにより、強調表示することもできる。perlは、インタプリター型の言語なので、ツールバー本体の外にもテキストファイルとしてプログラムを持つことができる。そのプログラムを交換しますと、ほとんどあらゆる他の種類のＨＴＭＬの変更が可能となる。これは、強調表示にとどまらないものである。このような変更が外のプログラムを修正するだけでできるようになる。

また、文章群中単語抽出手段１１０５４で、強調表示する入力された文書のファイルの大きさが所定値より大きい（この所定値は入力する部分を設けてユーザが自由に設定できるようになっている）場合、強調表示を行わないようにする。これは、強調表示する入力された文書であるＨＴＭＬファイルが大きくて時間がかかり過ぎる処理を行うことを防止するものである。

本発明は、本文において重要な個所が容易に把握でき便利であり、Ｗｅｂブラウザなどの文書閲覧システムにおいて利用可能であり、インターネットエクスプローラー等のＷｅｂブラウザのツールバーとして組み込んで利用できる。

図８は、ツールバー表示の説明図である。図８において、情報処理装置１１の表示画面３０には、最上段にはデータのタイトル３１、２段目には処理を指定するコマンド列３２、３段目には閲覧している場所を示している。４段目にはツールバーにオプション領域を設け、オプション領域を選択（指定）すると、「headline」、「副詞」、「原子記号」等の表示が現れる。この「headline」を選択することにより、上述したテキスト処理が行われ、下の画面３５に表示されている文書（テキストデータ）のタイトルに出てくる重要語が強調表示される。この強調表示は、「headline」を再度選択することにより強調表示されない通常の表示に戻すことができる。

なお、「副詞」を選択することにより、文書（画面３５）中のプラスイメージとマイナ
スイメージの副詞（又は形容詞）を色分けして強調表示するものである。「原子記号」を選択することにより、文書（画面３５）中の原子記号を強調表示するものである。なお、プラスイメージとマイナスイメージの副詞（又は形容詞）を色分けして強調表示する処理、および「原子記号」を選択することにより、文書（画面３５）中の原子記号を強調表示する処理については、後述する。

また、階層的にタイトルを強調表示する際に、階層ごとに異なる色を用いる。６階層までの場合は、異なる６色を用いることができる。

図９は強調表示例の説明図である。図９において、ｈ１は１階層のタイトルを示しそれ以降がタイトル文である。ｈ２は２階層のタイトルを示しそれ以降がそのタイトル文である。ｈ３は３階層のタイトルを示しそれ以降がそのタイトル文である。ｈ４は４階層のタイトルを示しそれ以降がそのタイトル文である。ｈ５は５階層のタイトルを示しそれ以降がそのタイトル文であることを示している。

ここで、文中の単語の区切り方が英語と日本語で異なるので、次のように処理している。

（１）ヘッドライン（タイトル）に一つでも日本語が含まれている場合、日本語と仮定して、区切り文字（カンマ、スペースなど）を考慮しない。前後に区切り文字がなくてもマッチする。

（２）その他の場合、英語と仮定して、区切り文字（カンマ、スペースなど）を考慮する。この場合前後に区切り文字がなければマッチしない。

１階層の「システム」の強調表示は、２〜５の階層でも同じ強調表示がされている。１階層と異なる２階層の「情報」「処理」の強調表示は、３〜５の階層でも同じ強調表示がされている（なお、階層が同じ場合は同じ強調表示を行う）。２階層と異なる３階層の「項目」の強調表示は、４、５の階層でも同じ強調表示がされている。なお、１階層の「システム」のように２階層以下でも強調表示されるものは１階層の強調表示を行う（上位の強調表示を優先する）。

このようにして、一つの文書の階層ごとのタイトルの説明が本文中のどこで説明されているかを容易に見つけることができる。
（具体例２）

次に、情報処理装置１１が、特許書類（特許請求の範囲、特許明細書、要約書などを含む）の特許請求項の範囲全体または、代表的な請求項（例えば、請求項１）から用語を抽出し、当該抽出した用語であり、特許書類に出現する用語に対して強調表示する処理を行う例について説明する。ここでは、さらに具体的に、複数の請求項から抽出した各用語に対して、抽出した請求項ごとに、強調表示の仕方を変更する態様について説明する。

図１０は、本具体例における情報処理装置１１のブロック図である。情報処理装置１１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７、出力部１１０８を具備する。また、文字列抽出部１１０５は、請求項抽出手段１１０５１１、単語抽出手段１１０５１２、格納手段１１０５３、文章群中単語抽出手段１１０５１４を具備する。文字列加工部１１０６は、強調表示属性付与手段１１０６１２を具備する。

請求項抽出手段１１０５１１は、文章群である特許書類中の請求項のタグを認識し、請求項を一つずつ抽出する。

単語抽出手段１１０５１２は、請求項抽出手段１１０５１１が抽出した請求項の文字列から、単語を抽出し、単語ごとに、請求項の番号と対応付けて、格納手段１１０５３に書き込む。文から単語を抽出する方法は、単語抽出手段１１０５２と同様である。

強調表示属性付与手段１１０６１２は、文章群中単語抽出手段１１０５４が抽出した各用語に対して、対応する請求項の番号を取得し、当該請求項の番号に対応する強調表示属性情報を決定する。そして、強調表示属性付与手段１１０６２は、文章群中単語抽出手段１１０５４が抽出した各用語（文字列）の属性値として、取得した強調表示属性情報を付与する。

以下、文字列抽出部１１０５が、特許書類に対して行う文字列抽出処理（上記のステップＳ３０５）を、図１１のフローチャートを用いて説明する。

（ステップＳ１１０１）請求項抽出手段１１０５１１は、カウンタｉに１を代入する。

（ステップＳ１１０２）請求項抽出手段１１０５１１は、ｉ番目の請求項が文章群（特許書類）の中に存在するか否かを判断する。ｉ番目の請求項が存在すればステップＳ１１０３に行き、ｉ番目の請求項が存在しなければ上位処理にリターンする。

（ステップＳ１１０３）請求項抽出手段１１０５１１は、ｉ番目の請求項を、文章群（特許書類）から取得する。

（ステップＳ１１０４）単語抽出手段１１０５１２は、ステップＳ１１０３で取得したｉ番目の請求項（文章）から１以上の用語を抽出する。文から用語を抽出する処理は種々ある。例えば、単語抽出手段１１０５１２は、文を形態素解析し、所定の自立語に対応する用語を抽出する。また、単語抽出手段１１０５１２は、「〜部と、」「〜手段と、」という手がかり語を用いて、構成要素名「〜部」「〜手段」のみを用語として抽出しても良い。また、単語抽出手段１１０５１２は、文を形態素解析し、かつ係り受け解析し、構成要素名のみを用語として抽出しても良い。

（ステップＳ１１０５）単語抽出手段１１０５１２は、請求項の番号「ｉ」と対応付けて、ステップＳ１１０４で抽出した１以上の用語を、格納手段１１０５３に書き込む。

（ステップＳ１１０６）請求項抽出手段１１０５１１は、カウンタｉを１、インクリメントする。ステップＳ１１０２に戻る。

次に、文字列加工部１１０６が行う文字列加工処理（上記のステップＳ３０８）を、図１２のフローチャートを用いて説明する。図１２のフローチャートにおいて、図６のフローチャートと同様のステップについて説明を省略する。

（ステップＳ１２０１）強調表示属性付与手段１１０６１２は、請求項の番号ｉに対応する強調表示属性を取得する。なお、強調表示属性付与手段１１０６１２は、ｉに対応して予め保持していても良いし、生成しても良い。強調表示属性を生成する場合、強調表示属性付与手段１１０６１２は、例えば、色の値を取得する関数にｉをパラメータとして代入する。

以下、さらに具体的に説明する。まず、情報処理装置１１は、図１３に示す請求項を有する特許書類（文章群）を受け付けた、とする。

次に、情報処理装置１１の請求項抽出手段１１０５１１は、請求項１から順に文章を読み出す。そして、単語抽出手段１１０５１２は、各請求項（文章）から１以上の用語を抽出する。その結果を、図１４の用語管理表に示す。用語管理表は、「請求項番号」と「用語」を対に有する。

次に、図１４の用語管理表の用語と請求項番号を一組ずつ抽出する。そして、強調表示属性付与手段１１０６１２は、請求項番号に対応する強調表示属性（ここでは、文字列の背景色）を取得する。

そして、文字列加工部１１０６は、特許書類を１ｂｙｔｅ目から走査し、図１４の用語管理表の用語が存在するか否かを判断する。用語が存在すれば、文字列加工部１１０６は、当該用語に対応する請求項番号に対する強調表示属性を、抽出した用語（文字列）の文字属性とする。なお、ここで、文字列加工部１１０６は、用語の直前または直後に、請求項番号を示す情報を挿入しても良い。

そして、文章群引渡部１１０７は、文字列加工部１１０６が得た新しい特許書類を、出力部１１０８に渡す。次に、出力部１１０８は、渡された特許書類を、ディスプレイに表示する。この表示例を図１５に示す。図１５において、文字列の背景色を見れば、どの請求項の文字列かが容易に把握できる。また、用語の前に請求項番号（例えば、［１］）が挿入されているので、さらに容易に、文字列が出現する請求項番号が把握できる。
（具体例３）

次に、情報処理装置１１が、文章群が有する科学記号に対して強調表示する処理を行う例について説明する。科学記号とは、ここでは、化学記号や物理記号、特に元素記号、電子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式などを含む。

図１６は、本具体例における情報処理装置１１のブロック図である。情報処理装置１１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７、出力部１１０８を具備する。また、文字列抽出部１１０５は、抽出情報格納手段１１０５２１、文章群中単語抽出手段１１０５２４を具備する。文字列加工部１１０６は、強調表示属性格納手段１１０６２１、強調表示属性付与手段１１０６２２を具備する。

抽出情報格納手段１１０５２１は、文章群から科学記号を抽出するための情報である抽出情報を格納している。抽出情報は、例えば、科学記号とその発現条件を対にした情報である。また、抽出情報は、文字列を抽出するためのルールである。ルールの具体例は後述する。

文章群中単語抽出手段１１０５２４は、抽出情報格納手段１１０５２１の抽出情報を用いて、文章群中の文字列（単語）を抽出する。単語の抽出方法の具体例は後述する。

強調表示属性格納手段１１０６２１は、強調表示属性を格納している。強調表示属性は、科学記号を強調表示するための情報であり、例えば、文字の色、サイズ、フォント、背景色などの属性である。また、強調表示属性は、色を変更する確度の閾値でも良い。つまり、テキストの全文又は一領域が黒色である場合、確度が閾値以上の場合にそれを赤色で表示する一方、閾値よりも低い場合には色を変化させないことができる。この場合、例えば閾値（強調表示属性）を０．２とするとＨは黒色のまま、Ｈｅは赤色で表示されることとなる。例えば、抽出情報が有する元素名を表す英語名称（hydrogenなど）の確度が１の場合、その英語名称（hydrogenなど）は赤色で表示される。

強調表示属性付与手段１１０６２２は、強調表示属性にしたがって、抽出された文字列に属性を付与する。つまり、強調表示属性付与手段１１０６２２は、文字列の色属性を「赤」に設定したりする。

抽出情報格納手段１１０５２１、強調表示属性格納手段１１０６２１は、ハードディスク等の不揮発性の記録媒体が好適であるが、ＲＡＭ等の揮発性の記録媒体でも実現可能である。

文章群中単語抽出手段１１０５２４、強調表示属性付与手段１１０６２２は、通常、ＭＰＵやメモリ等から実現され得る。文章群中単語抽出手段１１０５２４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。また、文章群中単語抽出手段１１０５２４、強調表示属性付与手段１１０６２２を実現するプログラムは、インタプリタ型の言語で記述されていることが好適である。

以下、文字列抽出部１１０５、文字列加工部１１０６が、文字列加工処理（上記のステップＳ３０８）により、文章群から科学記号を抽出し、強調表示するための処理を図１７のフローチャートを用いて説明する。なお、文字列抽出部１１０５が文字列を抽出する処理（上記のステップＳ３０５）は、ここでは、文章群中単語抽出手段１１０５２４が、抽出情報格納手段１１０５２１から抽出情報を読み出す処理等に該当する。

（ステップＳ１７０１）文章群中単語抽出手段１１０５２４は、カウンタｉに０を代入する。なお、ｉは、文章群中の抽出する単語の先頭を示すオフセットである。

（ステップＳ１７０２）文章群中単語抽出手段１１０５２４は、カウンタｊに１を代入する。なお、ｊは、抽出情報格納手段１１０５２１中の抽出情報のカウンタである。

（ステップＳ１７０３）文章群中単語抽出手段１１０５２４は、抽出情報格納手段１１０５２１にｊ番目の抽出情報が存在するか否かを判断する。ｊ番目の抽出情報が存在すればステップＳ１７０４に行き、ｊ番目の抽出情報が存在しなければステップＳ１７１０に行く。

（ステップＳ１７０４）文章群中単語抽出手段１１０５２４は、文章群中のｉｂｙｔｅ目からの文字列に対して、ｊ番目の抽出情報を適用する。ここで、適用とは、抽出情報が文字列の場合は、文章群中のｉｂｙｔｅ目から、抽出情報の文字列長分の文字列を切り出し、当該切り出した文字列が、ｊ番目の抽出情報と一致するか否かを判断する。また、適用とは、抽出情報がルールの場合、文章群中のｉｂｙｔｅ目から、ルールの対応する文字列長分の文字列を切り出し、当該切り出した文字列が、ｊ番目の抽出情報に合致するか否かを判断する。

（ステップＳ１７０５）文章群中単語抽出手段１１０５２４は、ステップＳ１７０４における適用結果が、「合致」との判断の場合、ステップＳ１７０６に行き、「不合致」の場合、ステップＳ１７０９に行く。

（ステップＳ１７０６）強調表示属性付与手段１１０６２２は、ｊ番目の抽出情報に対応する強調表示属性を取得する。

（ステップＳ１７０７）強調表示属性付与手段１１０６２２は、ｉｂｙｔｅ目からの抽出した文字列の属性として、ステップＳ１７０６で取得した強調表示属性を付与する。

（ステップＳ１７０８）文章群中単語抽出手段１１０５２４は、カウンタｉに、「ｉ＋強調表示した文字列の文字列長」を代入する。ステップＳ１７０２に戻る。

（ステップＳ１７０９）強調表示属性付与手段１１０６２２は、ｊを１、インクリメントする。ステップＳ１７０３に戻る。

（ステップＳ１７１０）強調表示属性付与手段１１０６２２は、ｉを１、インクリメントする。ステップＳ１７０２に戻る。

図１７のフローチャートにおいて、文章群中のポインタを１ｂｙｔｅずつずらしながら、文字列（科学記号）を抽出したが、文章群を構成する各文章を形態素解析し、取得した自立語に対して、抽出情報を適用して、強調すべき文字列（科学記号）を抽出しても良い。

以下、さらに具体的に説明する。ここで、図１８は、抽出情報の一例を示す。図１８において、各元素記号等（１４０）に対応して、それが単体でテキスト上に発現したときの科学記号である確度（１４１）が定義されている。例えば水素（Ｈ）に対しては０．１、ヘリウム（Ｈｅ）に対しては、０．２、リチウム（Ｌｉ）に対しては０．５というように定義している。

このように各元素に対して確度が異なるのは、元素記号が英単語と一致することがあり、その一致の可能性の大小によって定義しているからである。すなわち、Ｈｅの場合、英単語の彼を表すＨｅと一致しているため、文頭に単独で発現した場合には「Ｈｅ（彼）」か「Ｈｅ（ヘリウム）」かの判断が難しい。そのため確度は０．２となる。一方、ネオン「Ｎｅ」の場合、英語で文頭にＮｅが書かれる場合は極めて希であるから、確度は０．７としている。

このように確度は対象とする言語によっても異なるため、テキストの言語に応じてそれぞれ定義されることが望ましい。例えば日本語論文の中でＨｅが発現するのは通常は多くないため、より高い確度を定義してもよいと考えられる。

また、強調表示属性格納手段１１０６２１は、確度に応じた文字色（背景色などの他の文字属性でも良い）を格納している、とする。つまり、例えば、強調表示属性格納手段１１０６２１は、「確度＜０．１；黒」「０．１＜＝確度＜０．６；灰色」「確度＜＝０．６；赤色」という強調表示属性を保持している、とする。強調表示属性格納手段１１０６２１は、閾値（確度）を２個以上備えている。また、上記の例は、閾値０．６以上の場合には赤色、０．１以上０．６未満の場合は灰色で表示するとの定義である。

かかる場合、図１９の文章群を入力すると、情報処理装置１１は、上記の図１７のフローチャートにおける処理を行い、Ｎｅや元素名称は赤色、それ以外の元素については灰色で表示する。ここで、赤色とはテキストを表示する基本文字色（黒色）と色相が異なる色の例であり、色相が異なることで読者は完全に当該文字列を識別することができる。黒色の基本文字色に対してピンク色、黄色なども好適である。

一方、灰色とは基本文字色と明度が異なる色の例である。基本文字色と明度が異なるだけの場合、読者は強い違和感を覚えることがない。特に意識しない限り閲読を妨害しないので快適に閲読することができる。逆に意識をして読むと、明らかに基本文字色と異なるので明確に視認することができる。

このように本方法によれば、確実に科学記号と判定できるものについては読者に強く提示する一方、不確実なものについては注意を促す程度の表示が可能である。明度と共に彩
度を変化させる構成でもよい。

なお、色相、明度、彩度は特異表示文字列抽出処理部（１０２）で周知の技術により変
化させ、モニタ（１２）から表示することが可能である。

本発明の構成では、以上の確度を取得することにより、強調表示属性付与手段１１０６２２は、確度に応じた文字色を決定し、例えば、当該文字色に応じたタグ（例えば、ＨＴＭＬ文書の場合）を書き込む。

ここで、確度を算出する時に発現条件に基づいて行うことが挙げられる。以下にこの点を説述する。

本発明における発現条件とは、確度を算出する科学記号がテキストデ−タ中でどのような条件下で発現しているかを定義したものである。例えば、上述した例では各元素が「文頭に単独で発現した」ことを条件としている。すなわち、文章群中単語抽出手段１１０５２４は、ピリオド、読点、改行コ−ドなどに基づいて、その発現位置が文頭であるか否かを判定する。

発現条件を用いた確度Ｙの算出は、文章群中単語抽出手段１１０５２４において、以下の数式１に従って行う。

上記において、p(str)は科学記号候補文字列strの基礎となる確度（１４１）、ai(str)は科学記号候補文字列strに対する抽出情報格納手段１１０５２１（図１８）の発現条件iで定められた確度であり、xiは発現条件iに該当するときに１、該当しないときに０をとる。

従って、strが「Ｈ」であるとき、後述するように文頭（１４２）になく（xcap=1)、連接（１４３）する文字列がなく（xcohere=0)、イオン表記（３４）でない（xion=0)場合には、0.1+0.1*1+0.2*0+1*0=0.2が求める確度となる。

なお、上記のxcap 、xcohere 、xionはそれぞれ数１におけるxiの発現条件として「文頭にない」「連接する文字列がある」「イオン表記である」に対応するパラメ−タである。

文章群中単語抽出手段１１０５２４で抽出された科学記号候補文字列がピリオド等の直後に配置される場合には文頭に発現したものと判定できるので、上記抽出情報格納手段１１０５２１（図１８）の文頭位置に対応する各確度を取得する。

しかし、同時に抽出情報格納手段１１０５２１（図１８）には当該文字列が文頭でない場合の確度を格納している。これに係る項目が図１８のcapで表示された欄（１４２）である。抽出情報格納手段１１０５２１（図１８）の２行目は、文頭でない位置に「Ｈｅ」が出現した時にその確度は１を加算することを意味している。従って、この場合確度は１．２となる。実際には本実施例では確度が１を最大と規定しており、１を超えた確度は全て１として処理する。

なお、本発明の実施形態として抽出情報格納手段１１０５２１（図１８）中に大文字を含む文字列が掲載されている場合には、大文字と小文字を掲載されている通りに区別し、小文字だけで表記された文字列については全て小文字の他、全て大文字、それらの混在、いずれも抽出対象としている。

英語の場合には、文頭以外に先頭が大文字の文字列が配置されていれば固有名詞等である可能性が高く、このようにすることで１文字目を一般的に大文字で表記する元素記号等を高精度に表示することができる。

本発明の発現条件としては文頭か否かだけでなく、抽出情報格納手段１１０５２１（図１８）に掲載された他の文字と分かち書きを行わずに連接して表記されている場合の確度を定義している。本項目は欄（１４３）のcohereに続く数値でありこれに基づいて確度を算出する。例えば抽出情報格納手段１１０５２１（図１８）の８行目にあるＯの場合、単独で文頭にある場合には確度は０．１であるが、仮にＨと連接してＯＨと記載されていた場合、確度は０．２が加算されて０．３となる。

以上の構成によりＯＨのように連接した場合には単体のＯよりも確度が高く評価されるため、正確な表示を行うことができるようになる。

なお、ＯＨのように２個の連接でなく、３個以上の科学記号候補文字列が連接した場合にも確度はそれぞれについて０．２を上限として加算するようにしている。これは、略語など大文字が連続した場合でも必ずしも科学記号とは言えない場合が多いためであり、徒に確度が高まるのを防ぐようにしている。

これと関連して、科学記号と判定されやすい特定の文字列について確度を下げるデータベースを外部記憶装置（１３）に備えてもよい。科学記号除外文字列データベース（図示しない）として設け、文章群中単語抽出手段１１０５２４において該データベースと一致した場合には、抽出しないようにすることができる。すなわち、Convergent Close-Coupling やSmall Office Home Officeを示すＣＣＣ、ＳＯＨＯ等の文字列の場合、これらを構成する文字列はいずれも科学記号であって、連接することから確度が上昇しやすい。しかし、抽出処理の段階で科学記号除外文字列データベースに一致した文字列については抽出結果から取り除く処理を行う。

もちろん、科学記号除外文字列データベースを用いずに本発明は構成することができる。

あるいは、文章群中単語抽出手段１１０５２４は、該科学記号除外文字列データベースと一致する文字列については確度を０になるように算出処理をおこなってもよい。この場合、科学記号除外文字列データベースを別に設けず、上記科学記号及び発現条件を格納した抽出情報格納手段１１０５２１（図１８）に、例えば確度−１０として登録しておいてもよい。計算結果で負となる場合に確度０として処理することで、これらの文字列はいずれも確度０となり、科学記号候補から除外される。

上記構成に加えて、連接する各文字列に対して、連接文字列中で最も確度が高くなる文字列と等しい確度を設定することができる。

上記のＯＨを例にとると、Ｏの確度は文頭であってＨと連接するため確度は０．３、Ｈの確度は文頭でなくＯと連接することから０．８となる。このような場合、Ｏの確度は連接文字列中で最も高い０．８と設定する。

本構成により、一連の連接する文字列間で確度に整合性がとれるだけでなく、文字色を確度によって変化させた場合に視認しやすい表示に寄与する。

科学記号候補文字列の並びについては他にも次のような処理が可能である。

まず、分子構造を表す場合などハイフンを用いて元素を接続することがある。本具体例では、上記連接の場合と同様にハイフンで接続された文字列も処理する。このように科学記号を接続するのに用いられる文字記号を予め記憶させておき、該文字記号で接続されている場合には連接しているのと同様の処理を行わせてもよい。

あるいは、上記のように連接した場合に連接文字列中で最も高い確度を各文字列に設定するのではなく、所定の確度以上の文字列と連接する場合に、各確度を上昇させるように構成してもよい。すなわち、抽出情報格納手段１１０５２１（図１８）に、例えばhighという項目を設けて、閾値０．６以上の科学記号候補文字列と連接した場合に、確度＋０．７又は０．８を定義する。この場合、上記ＯＨの例で言えば、Ｈの確度が０．８で閾値以上であるため、Ｏの確度も例えば０．７加算されて１となる。

さらに、連接の概念をより広めて構成することもできる。すなわち、本発明に言う連続とは、科学記号候補文字列が連接した場合、ハイフンで接続された場合に加えて、当該テキストデ−タの言語における接続詞等を用いて接続した場合を含めても良い。英語であれば、複数の名詞を並列する場合に、A,B and Cのように、コンマと文字列andで接続される。

このとき、抽出された科学記号候補文字列間にコンマ又はandやorなどを含む場合に、連接しているのと同様（この場合を並列と呼ぶ。）に処理することができる。

並列の場合にも、全ての並列する科学記号候補文字列の確度を並列文字列中で最大確度に合わせてもよいし、抽出情報格納手段１１０５２１（図１８）に定めた値を加算するようにしてもよい。後者の場合には、連接の場合とは異なる数値を定めることもできる。

以上のように連接や並列の場合に、他の科学記号候補文字列の確度を互いに影響させることで高精度な表示を行うことができる。

発現条件は、対象とする科学記号に合わせて適宜定義することができる。例えば元素記号の場合にはイオンを示すプラス・マイナス記号が付されることが多く、これらが付された場合には極めて高い確度で科学記号と判定できる。

具体的には、文章群中に、タグなどによって書式指定がされ、In<sup>+</sup>のように、上添字の＋によるイオン表記となる科学記号を検出する。同様に、（ｎ＋）や（ｎ−）（ｎは任意）などの所定の書式の場合に、図１８における欄（１４４）に従って確度を１とする。

同様に例えば分光記号におけるＳＰＤＦなどの文字列や、原子軌道を示すｓ軌道、ｐ軌道の電子配置、遺伝子の塩基配列におけるＡ、Ｇ、Ｔ、Ｃ、Ｕなどの文字列を他の文字との組み合わせで確度を算出するようにしてもよい。

これらの科学記号は文字の記載順序など確立されたル−ルに従って発現するため、本発明のように発現条件を付与可能な抽出情報格納手段１１０５２１（図１８）を用いることで効果的に抽出することができる。

イオン表記や、他の文字との組み合わせで確度が高くなった科学記号について、同一のテキストデ−タ中で単独で出現した場合にも、その確度を上げる処理をおこなってもよい。

すなわち、一度全部のテキストデ−タについて確度算出を行って、イオン表記等による確度の確定を行い、再び抽出された各科学記号候補文字列について確度の再定義処理を行う。

本処理では、イオン表記など所定の発現条件に合致した文字列について、単独で現れているものを抽出し、その確度に所定値、例えば＋０．７を加算する。あるいは、上記イオン表記等で定義された確度と同一値を与えてもよい。

本処理によれば、イオン表記や他の文字との組み合わせの出現によって単体でも現れる蓋然性の高い文字列について高い確度を定義することができる。

本発明の別実施例として、文章群中単語抽出手段１１０５２４が、形態素解析処理を行う形態素解析処理手段（図示しない）を備えたものと、することができる。

形態素解析については公知の技術であり、日本語の形態素解析技術として例えば茶筌（インターネットホームページＵＲＬ<http://chasen.aist-nara.ac.jp>に記載）を用いることができる。

また、分かち書きをする英語などのラテン文字を用いるテキストデ−タでは形態素への分割は容易であるがＨＭＭなどの統計的手法により同様に解析処理が行える。形態素解析を用いて品詞を見分けることも行われている。

形態素解析処理は、科学記号を抽出する前処理として行う。このとき、周知のように外部記憶装置に格納された形態素解析辞書を用いながら解析する。上記実施例では抽出情報格納手段１１０５２１（図１８）に掲載された情報と照合することで科学記号を抽出したが、本実施例では解析の結果得られた形態素と抽出情報格納手段１１０５２１（図１８）の内容とを比較して一致するものを抽出する。

形態素解析をすると、形態素の区切りがより正確になるため抽出情報格納手段１１０５２１（図１８）との照合も確実に行うことができる。さらに形態素解析で各形態素の品詞を取得することができる。これを利用し、抽出情報格納手段１１０５２１（図１８）に文字列と共に品詞情報を付与し、上記と同様にその場合の確度を定義しておくこともできる。

本構成によると、例えば、Ｈｅが名詞であれば元素名である確度を高く定義する一方、代名詞であれば、科学記号である可能性は極めて低いため確度を０となるように「-10」と定義することもできる。

以上のような別実施例によりさらに高精度なデ−タの表示装置を提供することが可能である。

さらに本発明では、ある科学記号は、特定の文字列と共にテキストデ−タ中に現れるときに、科学記号である確度が高いことに着目して、次のような処理を行うこともできる。すなわち、特定の文字列を手がかり表現とし、テキストデ−タ中の同一文あるいは前後所定の形態素数内において、科学記号と共起しやすい文字列（手がかり表現）が抽出されるときに、対応する科学記号の確度を高める。本構成は、文章群中単語抽出手段１１０５２４において、科学記号を抽出すると共に、予め格納されている手がかり表現テ−ブル（図示しない）を参照して手がかり表現を抽出する。

手がかり表現テ−ブルには、例えば元素記号と共起しやすい表現である「-like ion」などと、各元素記号との組み合わせを格納しておく。

そして、共起文字列「-like ion」が抽出された場合には、組み合わせとして定義されている各科学記号候補文字列の確度を確度算出において上昇させる。上昇値は、上記のように抽出情報格納手段１１０５２１（図１８）中に定義しておくか、手がかり表現テ−ブル（共起文字列テ−ブル）中に共起した場合の確度の値を定義しておく。

上記では手がかり表現テ−ブルを予め人手によって定義するが、これを自動化して該テ−ブルを構成することもできる。

本処理には一般的な例文として科学記号を含むテキストコ−パスを用いる。該コ−パスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義されている。文字列が科学記号か否かも定義されている。

なお、本発明では単語列の形態素、品詞などが定義されていないコ−パスを用いても良く、その場合には公知の形態素解析器（図示しない）や辞書データベースを用いてこれらを自動的に付与した後に、次の処理に進んでもよい。

上記では手がかり表現テ−ブルを予め人手によって定義するが、これを自動化して該テ
−ブルを構成することもできる。

本処理には一般的な例文として科学記号を含むテキストコ−パスを用いる。
該コ−パスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義され
ている。文字列が科学記号か否かも定義されている。

なお、本発明では単語列の形態素、品詞などが定義されていないコ−パスを用いても良
く、その場合には公知の形態素解析器（図示しない）や辞書データベースを用いてこれら
を自動的に付与した後に、次の処理に進んでもよい。

まず、テキストコ−パスから抽出情報格納手段１１０５２１（図１８）を参照して科学記号候補文字列を抽出する。

そして、該テキストコ−パス中の当該科学記号候補文字列を含む同一文に共起する文字列（手がかり表現候補）を抽出する。テキストコ−パス内の全文について手がかり表現候補が科学記号候補文字列と共起する回数Ｎ１をカウントする。

次に、当該手がかり表現候補を含む文について、当該科学記号候補文字列が現れない回数Ｎ２をカウントする。すなわち、科学記号候補文字列と手がかり表現候補が共起せず手がかり表現候補のみが単独で現れる回数である。

さらに、Ｎ２が０でなければＮ１／Ｎ２を算出することにより、共起する割合が所定の閾値以上であるか否かを確認する。Ｎ２が０の場合には閾値以上のときと同様に処理を行っても良いし、Ｎ１が所定回数、例えば３回以上の場合にだけ同様の処理を行っても良い。

あるいは、Ｎ２がすべての場合に適用しうるように、Ｎ１／Ｎ２の算出（１５９）に替えてＮ１／（Ｎ１＋Ｎ２）を算出する構成でもよい。

加えて、上記の回数Ｎ１が回数Ｎ２よりも有意に大きいことを二項検定などの公知の統計的検定の手法に基づいて確認し、確認が取れた場合に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブルに記録する。

本実施例として、二項検定を行う方法を説述する。初期値として、一回の試行で科学記号候補文字列と手がかり表現候補とが共起する確率及び、科学記号候補文字列と手がかり表現候補とが共起せず後者だけが単独で出現する確率をそれぞれ０．５とする。

そして、Ｎ１＋Ｎ２の総出現のうちＮ２回以下、科学記号候補文字列と手がかり表現候補とが共起せず手がかり表現候補のみが出現した確率を求める。

すなわち、この確率は、以下の数式２になる。

ただし、Σは、x=0からx=N2の和、C(A,B) は A個の異なったものからB個のものを取り出す場合の数である。

数式２で表され、この確率の値が十分小さければＮ１とＮ２は等価な確率でない、すなわち、Ｎ１がＮ２に比べて有意に大きいことが判断できる。

そして、５％検定ならば上記Ｐ１が５％よりも小さいこと、１０％検定ならばＰ１が１０％よりも小さいこと、が有意に大きいかどうかの判断基準となる。

上記では同一文としたが、単に同一文ではなく、共起する表現を前方で連接する単語列（前方１単語列に共起する）や共起する表現を後方で連接する単語列（後方１単語列に共起する）手がかり表現候補に限定してもよい。単語列としては形態素や、形態素の集合を用いることができる。

科学記号候補文字列の確度を高精度に算出する別の方法として、次の技術を組み合わせて用いることもできる。

本技術は科学記号候補文字列が、一般的な文章に比して多く出現する場合には当該文字列が科学記号である確度が高いと判定するものである。例えば、leadという文字列を考えたとき、これは科学記号（元素名）である可能性と、「導く」などを意味する英単語である可能性とがある。

後者の意味の英単語は一般的な文章において頻繁に出現することは少ないが、科学論文において鉛を話題にした文章では頻繁に出現する。この場合、科学記号として処理するのが好適である。

そこで、図１７に示すように、まず文章群から科学記号を抽出したとき、抽出された当該科学記号の個数と該文章群を構成する全単語数との比、すなわち出現率Ｒ１（当該科学記号候補文字列の出現数／全文字列総数）を算出する。

次に、一般的なテキストコ−パス（例えば新聞記事）を用いて、同様に該テキストコ−パスにおける当該科学記号候補文字列の出現数／全文字列総数を算出する。これを出現率Ｒ２とする。

そして、出現率の比Ｒ１／Ｒ２を算出し、所定の閾値より大きいか否かを判定する。

加えて、上記のＲ１がＲ２よりも有意に大きいことを比の検定、またはカイ二乗検定などの公知の統計的検定の手法に基づいて確認し、確認が取れた場合（例えばカイ２乗検定で１％水準、又は５％水準等で有意と認められた場合）に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブルに記録する。

上記カイ２乗検定について説述すると、Ｒ１を計算する分母、分子をそれぞれＮ１、Ｆ１とし、Ｒ２を計算する分母、分子をそれぞれＮ２、Ｆ２とする。

Ｎ＝Ｎ１＋Ｎ２として、カイ２乗値は次式（数式３）により求められる。

そして、このカイ二乗値が大きいほどＲ１とＲ２は有意差があると言え、例えばカイ二乗値が3.84よりも大きいとき危険率５％の有意差があると言え、カイ二乗値が6.63よりも大きいとき危険率１％の有意差があると言える。

次に比の検定を用いる場合を説述する。まず、以下の数式４を定義する。

そして、２群の比率の差の検定における検定統計量は、以下の数式５で表される。

このとき、Ｚが大きいほど、Ｒ１とＲ２は有意差があると言え、Ｚが1.96よりも大きいとき危険率５％の有意差があると言え、Ｚが2.58よりも大きいとき危険率１％の有意差があると言える。

これらの実施例において確度を抽出情報格納手段１１０５２１（図１８）に予め定義する構成を説述した。しかし、以下のようにテキストデ−タから確度を自動的に修正する構成を用いることもできる。

文章群を入力した後、科学記号を抽出する際に、文章群中の科学記号候補文字列の数をカウントする。該カウントはＣＰＵにより公知の方法で実行処理することができる。

そして、該カウントが予め定めた閾値（例えば５００ワ−ド中に５回以上などと定義する）である場合には、抽出情報格納手段１１０５２１（図１８）に定義された確度を上昇させる書き換え処理（１７２）を行う。

このように書き換えられた抽出情報格納手段１１０５２１（図１８）を用いて確度の算出を行うことで、頻繁に出現する文字列については科学記号であるとの判定が出やすくする。本方法が有効であるのは例えば英語の前置詞と元素記号が同一スペルの場合に、そのスペルの文字列が一定以上多い場合には、そのテキストデ−タには当該元素記号に係る内容が含まれている可能性が高く、これらをもれなく抽出表示するためである。

また、ＮやＯなどの大文字１文字の場合にも有効であり、文頭以外の場所に頻繁にこれらの文字が発現する場合には、文頭に発現した際にも科学記号であるとの判定が出やすくなる。

なお補足すると、抽出情報格納手段１１０５２１（図１８）には確度ではなく表示色を直接定義してもよい。この場合、発現条件毎に表示色を直接定義し、上記同様の効果を奏する。

また、本実施例では表示色を変更する構成を開示したが、色ではなく書式を変化させる構成でもよい。周知のようにテキストデ−タの表示態様としては文字フォントの変更や下線の付与、網掛け表示、括弧による範囲表示などが知られており、これらを用いて文字色を変化させる代わりに所望の範囲を読者に表示することができる。

以下には、本発明の具体的な実施例として、表示色と各科学記号候補文字列の判定ルールについて説述する。つまり、抽出情報がルールである。

図２０は、本発明における表示色の定義である。図示のように、ル−ル１，３，４，５，６，７，８を定め、それぞれにル−ル１では原子・分子・イオンを表現する場合に桃色で表示すること、ル−ル３では電子配置の表現に黄色で表示すること、のように定義している。なお、ル−ル２は欠番である。

上述した発現条件と関連して、ル−ル１の判定には電子eや、+/-の上下添字、原子名に上下添字、IVXivxの表現、"like"/"ic"についても同様に桃色で表示することを定義する。

ル−ル３の判定では、「数字＊」（＊はあってもなくても良いことを示す。以下同じ。）「s/p/d/f/g」「上下添字＊」の一回以上の繰り返しでかつ、数字が少なくとも１回は含まれることを条件とする。

ル−ル４の判定では、「上下添字＊」「S/P/D/F/G」「上下添字＊」の一回以上の繰り返しでかつ、「上下添字」が少なくとも１回は含まれることを条件とする。

また、上記ル−ル１と競合した場合は下のより厳密な規則を採用する。

すなわち、「上添字＊」「S/P/D/F/G」「下添字＊」の一回以上の繰り返しでかつ、添字の中身はル−ル１から４に限られ、上下添字のいずれかは出現する条件とする。

ル−ル５の判定では、「n/l」「=/</>」の一回以上の繰り返しや、数字を条件として水色で表示する。

ル−ル６の判定では、「（ル−ル３の表現）のゼロ回以上の繰り返し」「数字/n/n-barl」が出現した場合に、橙色で表示する。

ル−ル７の判定では、英語アルファベット大文字一文字からなる原子名について、まわりに手がかり表現(-like ion等)などがなければ、原子名でない可能性が高いと判断してル−ル７に分類する。また、英語アルファベット大文字一文字からなる原子名が連続した表現や"Rev"、の場合にも手がかり表現がなければ同様にル−ル７に分類する。

As,In,At,Heが文頭に出現した場合、前置詞や代名詞の可能性が高いためル−ル７に分類する。

さらに以上のような表示色のル−ルによっていずれの条件にも合致しなかったものの、科学記号候補文字列として抽出されたものをル−ル８とし、濃い灰色で表示した。

なお、図２０において、ルールは、通常、正規表現で示されるが、便宜上、その意義を示す用語（「原子、分子、イオン」など）を記載している。

以上のような表示色のル−ルは、上記確度の算出結果に連動しており、抽出情報格納手段１１０５２１（図２０）の構成を適切に設計することによって実現している。
（具体例４）

次に、情報処理装置１１が、プラスイメージとマイナスイメージの副詞（又は形容詞）を色分けして強調表示する処理を行う例について説明する。

文字列抽出部１１０５は、プラスイメージの副詞（又は形容詞）を格納しているプラスイメージ用語格納手段と、マイナスイメージの副詞（又は形容詞）を格納しているマイナスイメージ用語格納手段と、当該プラスイメージの副詞（又は形容詞）と、マイナスイメージの副詞（又は形容詞）を、文章群中から抽出する文字列抽出手段を具備する。

また、文字列加工部１１０６は、プラスイメージの副詞（又は形容詞）を強調するための属性情報と、マイナスイメージの副詞（又は形容詞）を強調するための属性情報を格納しており、対応する強調が行えるように、文字列抽出部１１０５が抽出した文字列を強調処理する。

文章群中のプラスイメージとマイナスイメージの副詞（又は形容詞）に強調処理が施された後の文章群の表示処理は、上記と同様である。

以上、本実施の形態において、タイトルで使用されている用語（重要語など）を、そのタイトルの階層に応じて、強調方法（属性）を変えて、強調表示できる。また、本実施の形態において、特許の請求項で使用されている用語を、その請求項番号に応じて、強調方法（属性）を変えて、強調表示できる。また、本実施の形態において、科学記号を、その種類ごと等により、強調方法（属性）を変えて、強調表示できる。さらに、本実施の形態において、プラスイメージとマイナスイメージの副詞（又は形容詞）を色分けして強調表示できる。

さらに、本実施の形態において、情報処理装置１１の文章群受付部１１０４と文章群引渡部１１０７をコンパイラ型のプログラム言語で開発し、文字列抽出部１１０５と文字列加工部１１０６をインタプリタ型のプログラム言語で開発することにより、以下に示す多大な効果を奏する。つまり、文章のタイプ（一般文章、特許書類、科学文章など）により、強調方法を変更したい、という要求がある一方、文章群の入出力処理（文章群受付部１１０４と文章群引渡部１１０７）は変更する必要はない。そのため、文章群受付部１１０４と文章群引渡部１１０７をコンパイラ型のプログラム言語で開発し、文字列抽出部１１０５と文字列加工部１１０６をインタプリタ型のプログラム言語で開発することにより、テキスト処理の部分（文字列抽出部１１０５と文字列加工部１１０６の処理部分）のみを、プログラム修正しては、直ちにテストを行う、スパイラル開発が容易にでき、かつ、インターフェイス部分のソフトウェアの変更が行えず、一度開発した後は、誤ってバグが入り込む余地がなくなる。

また、本実施の形態において、情報処理装置１１が実現する処理をプログラムで実現することは好適である。このプログラムは、コンピュータに、1以上の文章を有する文章群を受け付ける文章群受付ステップと、前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す出力文章群引渡ステップを実行させるためのプログラムであって、前記文章群受付ステップと前記出力文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラム、である。

また、上記プログラムにおいて、前記文章群は、Ｗｅｂ上のホームページであり、前記文章群受付ステップは、Ｗｅｂブラウザが受信したＷｅｂ上のホームページを受け付け、前記出力文章群引渡ステップは、前記Ｗｅｂブラウザに出力文章群を渡す、ことは好適である。
（実施の形態２）

本実施の形態において、複数の文章処理部と文字列属性を対に具備し、ユーザの指示に対応する文章処理部を実行し、文字列属性に対応する文字列に変更された文章群を出力部に渡す態様について説明する。また、本実施の形態において、自動的に文章群のタイプを検出し、文章群タイプに応じた文章処理を実行する態様について説明する。また、文章群のタイプを決定するアルゴリズムの例として、機械学習による例、およびルールを用いる例などについて説明する。

まず、上記処理を行う情報処理装置を含む情報処理システムについて説明する。図２１は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置２１１と、1以上のサーバ装置１２を具備する。情報処理装置２１１は、ユーザが使用する情報端末であり、いわゆるパーソナルコンピュータ、ノートパソコン、ＰＤＡ、携帯電話等、文章群を表示できる装置であれば良い。情報処理装置２１１とサーバ装置１２は、例えば、インターネット等の通信網により、相互に通信可能である。

情報処理装置２１１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、第一文字列抽出部２１１０１、第二文字列抽出部２１１０２、文字列属性格納部２１１０３、文字列加工部２１１０４、文章群引渡部１１０７、出力部２１１０５、判断情報格納部２１１０６、文章群タイプ決定部２１１０７、制御部２１１０８を具備する。

文章群タイプ決定部２１１０７は、文章群属性情報取得手段２１１０７１、タイプ情報決定手段２１１０７２を具備する。なお、文章群タイプ決定部２１１０７が、文章群属性情報取得手段２１１０７１とタイプ情報決定手段２１１０７２を具備する場合は、文章群タイプ決定部２１１０７が機械学習のアルゴリズムにより、タイプを決定する場合である。

第一文字列抽出部２１１０１は、受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する。第一文字列抽出部２１１０１は、通常、ＭＰＵやメモリ等から実現され得る。第一文字列抽出部２１１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

第二文字列抽出部２１１０２は、受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する。第二文字列抽出部２１１０２は、通常、ＭＰＵやメモリ等から実現され得る。第二文字列抽出部２１１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

また、第一文字列抽出部２１１０１と第二文字列抽出部２１１０２は、異なるタイプの文字列を抽出する。例えば、第一文字列抽出部２１１０１は、上述したタイトルに含まれる用語を文章群から抽出する。また、第二文字列抽出部２１１０２は、上述した特許書類の請求項に含まれる用語を、特許書類から抽出する。さらに、情報処理装置２１１は、図示しない第三文字列抽出部、第四文字列抽出部、・・・、第ｎ文字列抽出部を具備しても良い。かかる場合、第一文字列抽出部から第ｎ文字列抽出部は、異なるタイプの文字列を抽出する。例えば、第三文字列抽出部は、上述した科学記号を抽出する処理を行う。

文字列属性格納部２１１０３は、第一文字列抽出部２１１０１または第二文字列抽出部２１１０２に対応付けて、それぞれ文字列属性を格納している。「第一文字列抽出部２１１０１に対応付ける」とは、「第一文字列抽出部２１１０１」を識別する情報と対応付ける、ということでも良い。「第一文字列抽出部２１１０１」や「第二文字列抽出部２１１０２」がプログラムで実現されている場合、「第一文字列抽出部２１１０１に対応付ける」とは、そのプログラムを識別する情報（プログラム名や関数名やＩＤなど）と対応付ける、ということでも良い。文字列属性とは、文字列の色、フォント、背景色、サイズ、網掛けの有無、下線の有無、その他の装飾の有無などの文字列（１つの文字も含む）に関する情報である。文字列属性格納部２１１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

文字列加工部２１１０４は、第一文字列抽出部２１１０１または第二文字列抽出部２１１０２で、それぞれ抽出した1以上の各文字列に対して、第一文字列抽出部２１１０１または第二文字列抽出部２１１０２に対応付けて格納されている文字列属性に従った文字列に加工を行う。文字列の加工とは、文字列の属性を、取得した文字列属性に設定することである。文字列属性の設定方法は、文章群の種類（ＨＴＭＬ文書、特定のワープロソフトの文書など）により異なる。文章群の種類がＨＴＭＬ文書の場合、ＨＴＭＬ文書は、タグやタグの属性（例えば、「col=red」など）として、文字列の定義の箇所に挿入する。文字列加工部２１１０４は、文章群の一部の文字列を加工し、取得した新しい文章群を文章群引渡部１１０７に渡す。文字列加工部２１１０４は、通常、ＭＰＵやメモリ等から実現され得る。文字列加工部２１１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部２１１０５は、文章群引渡部１１０７から受け付けた出力文章群を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部２１１０５は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部２１１０５は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

判断情報格納部２１１０６は、文章群のタイプを判断するための情報である判断情報を格納している。判断情報は、例えば、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データである。判断情報は、通常、２以上の文章群教師データを有する。また、判断情報は、文章群のタイプを判断するためのルールでも良い。ルールとは、例えば、特許書類であることを判断するための文字列（例えば、墨付き括弧で囲まれた［書類名］や、墨付き括弧など）や、ホームページであることを識別するためのＨＴＭＬ特有のタグ（例えば、<html>や<title>など）や、科学記号を含む文章群であることを識別する文字列（例えば、上付きのイオン（＋）（−）など）である。また、ルールとは、例えば、図１８や図２０に示した情報でも良い。判断情報格納部２１１０６は、通常、ＭＰＵやメモリ等から実現され得る。判断情報格納部２１１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

文章群タイプ決定部２１１０７は、判断情報を用いて、文章群受付部１１０４が受け付けた文章群のタイプを決定する。文章群タイプ決定部２１１０７は、例えば、文章群受付部１１０４が受け付けた文章群から、当該文章群の文章群属性情報を取得し、かつ、２以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、先に取得した文章群属性情報を用いて、文章群受付部１１０４が受け付けた文章群のタイプを決定しても良い。なお、文章群教師データは、判断情報格納部２１１０６に格納されている。つまり、文章群タイプ決定部２１１０７は、例えば、機械学習のアルゴリズムを用いて、文章群受付部１１０４が受け付けた文章群のタイプを決定しても良い。具体的な機械学習のアルゴリズムは後述する。文章群タイプ決定部２１１０７は、通常、ＭＰＵやメモリ等から実現され得る。文章群タイプ決定部２１１０７の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

文章群属性情報取得手段２１１０７１は、文章群受付部１１０４が受け付けた文章群から、当該文章群の文章群属性情報を取得する。文章群属性情報とは、例えば、タグ（<>で囲まれた文字列）の数や、特定のタグ（例えば、<html>）の有無、特定の用語（例えば、［請求項］や［書類名］）の数や有無、文章群のワード数、言語など、文章群から取得できる情報であれば何でも良い。文章群から、タグ（<>で囲まれた文字列）の数や、特定のタグ（例えば、<html>）の有無、特定の用語の数や有無、文章群のワード数、言語などを取得する処理は公知技術であるので、詳細な説明を省略する。文章群属性情報取得手段２１１０７１は、通常、ＭＰＵやメモリ等から実現され得る。文章群属性情報取得手段２１１０７１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

タイプ情報決定手段２１１０７２は、文章群属性情報取得手段２１１０７１が取得した文章群属性情報と、判断情報格納部２１１０６の２以上の文章群教師データを用いて、サポートベクターマシンなどの機械学習のアルゴリズムにより、文章群受付部１１０４が受け付けた文章群のタイプを決定する。タイプ情報決定手段は、通常、ＭＰＵやメモリ等から実現され得る。タイプ情報決定手段２１１０７２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

制御部２１１０８は、文章群タイプ決定部２１１０７が決定した文章群のタイプに対応した第一文字列抽出部２１１０１または第二文字列抽出部２１１０２に対して動作の実行を指示する。なお、情報処理装置２１１が３以上の文字列抽出部を有する場合、制御部２１１０８は、文章群タイプ決定部２１１０７が決定した文章群のタイプに対応して、３以上の文字列抽出部から一の文字列抽出部を選択する。なお、制御部２１１０８は、２以上の文字列抽出部を選択しても良い。かかる場合、科学記号を含む特許書類に対して、上述した両方の機能（特許書類の強調表示と科学記号の強調表示）を有する適切な協調表示ができる。制御部２１１０８は、通常、ＭＰＵやメモリ等から実現され得る。制御部２１１０８の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置２１１の動作について図２２のフローチャートを用いて説明する。図２２のフローチャートにおいて、図３のフローチャートと同様のステップについて、説明を省略する。

（ステップＳ２２０１）文章群タイプ決定部２１１０７は、ステップＳ３０４で受け付けた文章群のタイプを決定する。文章群のタイプを決定する処理について、図２３のフローチャートを用いて説明する。

（ステップＳ２２０２）制御部２１１０８は、ステップＳ２２０１で決定された文章群のタイプに対応した文字列抽出部（ここでは、第一文字列抽出部２１１０１、または第二文字列抽出部２１１０２のうちのいずれか）を選択する。制御部２１１０８は、例えば、ステップＳ２２０１で決定された文章群のタイプに対応した文字列抽出部のプログラム（または関数）を呼び出す。

なお、図２２のフローチャートにおいて選択対象の文字列抽出部は３以上でも良い。

次に、ステップＳ２２０１の文章群のタイプ決定処理の第一の例について、図２３のフローチャートを用いて説明する。文章群のタイプ決定処理の第一の例は、あるルールに基づく例である。あるルールとは、文字列のパターンの例とする。ここで、文章群タイプ決定部２１１０７は、予め３つのルールを格納している、とする。３つのルールとは、（１）ＨＴＭＬ文書であることを示すルールであり、タグ「<html>」が存在すること、およびタグ（"＜（半角文字）"と"＞（半角文字）"で囲まれている文字列）の数が所定数以上、という第一のルール、（２）特許書類であることを示すルールであり、墨付き括弧のタグ［書類名］が存在すること、および墨付き括弧の数が所定数以上、という第二のルール、（３）科学文書であることを示すルールであり、図１８に示す文字列が所定数以上出現する、という第三のルール、であるとする。かかる場合のタイプ決定処理について説明する。

（ステップＳ２３０１）文章群タイプ決定部２１１０７は、文章群を検索し、タグ<html>が存在するか否かを判断する。タグ<html>が存在すればステップＳ２３０２に行き、タグ<html>が存在しなければステップＳ２３０５に行く。

（ステップＳ２３０２）文章群タイプ決定部２１１０７は、文章群中のタグ（<・・・>）の数を取得する。

（ステップＳ２３０３）文章群タイプ決定部２１１０７は、ステップＳ２３０２で取得したタグの数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップＳ２３０４に行き、所定の閾値以上でなければステップＳ２３０５に行く。

（ステップＳ２３０４）文章群タイプ決定部２１１０７は、文章群のタイプをタイプ１（ＨＴＭＬ文書）である、と決定する。具体的には、文章群タイプ決定部２１１０７は、所定のバッファにタイプを識別する情報「１」を代入する。上位処理にリターンする。

（ステップＳ２３０５）文章群タイプ決定部２１１０７は、文章群を検索し、墨付き括弧に囲まれた書類名の文字列（[書類名]）が存在するか否かを判断する。[書類名]が存在すればステップＳ２３０６に行き、[書類名]が存在しなければステップＳ２３０９に行く。

（ステップＳ２３０６）文章群タイプ決定部２１１０７は、文章群中の墨付き括弧の数を取得する。

（ステップＳ２３０７）文章群タイプ決定部２１１０７は、ステップＳ２３０６で取得した墨付き括弧の数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップＳ２３０８に行き、所定の閾値以上でなければステップＳ２３０９に行く。

（ステップＳ２３０８）文章群タイプ決定部２１１０７は、文章群のタイプをタイプ２（特許文書）である、と決定する。具体的には、文章群タイプ決定部２１１０７は、所定のバッファにタイプを識別する情報「２」を代入する。上位処理にリターンする。

（ステップＳ２３０９）文章群タイプ決定部２１１０７は、図１８に登録されているような科学記号の文字列の出現する回数を取得する。

（ステップＳ２３１０）文章群タイプ決定部２１１０７は、ステップＳ２３０９で取得した文字列の数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップＳ２３１１に行き、所定の閾値以上でなければステップＳ２３１２に行く。

（ステップＳ２３１１）文章群タイプ決定部２１１０７は、文章群のタイプをタイプ３（科学文書）である、と決定する。具体的には、文章群タイプ決定部２１１０７は、所定のバッファにタイプを識別する情報「３」を代入する。上位処理にリターンする。

（ステップＳ２３１２）文章群タイプ決定部２１１０７は、文章群のタイプをその他のタイプ（例えば、タイプ４）と決定する。具体的には、文章群タイプ決定部２１１０７は、所定のバッファにタイプを識別する情報「４」を代入する。上位処理にリターンする。

なお、図２３のフローチャートにおいて、予め決められたルールに基づいて、文章群のタイプをタイプ１（ＨＴＭＬ文書）、タイプ２（特許文書）、タイプ３（科学文書）のいずれかに決定した。しかし、文章群タイプ決定部２１１０７は、他のルールに基づいて文章群タイプを決定しても良い。また、文章群タイプ決定部２１１０７は、ＨＴＭＬ文書、特許文書、科学文書以外のタイプに文章群のタイプを決定しても良い。

例えば、以下のようなルールに基づく自動判定方法がある。判断情報格納部２１１０６は、図２４に示す判断情報管理表を格納している。図２４の判断情報管理表は、文章群のタイプを判断するためのルールの情報であり、「ＩＤ」「特有表現」「出現情報」「文章群タイプ」「優先度」の属性を有するレコードを１以上、格納している。「ＩＤ」は、表のレコード管理のための情報である。「特有表現」は、文章群タイプの文章群特有の表現を記述する。「出現情報」は、「特有表現」で抽出される表現（用語など）の出現に関する条件を示す情報であり、所定の閾値を用いた情報（ｎ１個以上など）でも良いし、出現割合（６０％以上など）でも良い。出現割合とは、例えば、出現密度とも言い「出現数／その文書の総文字数」で表される。「文章群タイプ」は文章群のタイプ名である。「優先度」は、判断情報を適用する優先順位を示す。つまり、文章群タイプ決定部２１１０７は、優先度「１」の判断情報から順に、文章群に対して適用し、「特有表現」「出現情報」で示される条件に初めて合致した文章群タイプを、入力の文章群の文章群タイプと決定する。

図２４において、「ＩＤ＝１」のレコードは、「請求項」や「書類名」などの特許特有の表現が「ｎ１」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「特許文書」と決定する、ことを示す。

そして、図２４において、「ＩＤ＝２」のレコードは、墨付きの左括弧に用語「請求項」が連続する表現などの、特許特有の表現が「ｎ２」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「特許文書」と決定する、ことを示す。

図２４において、「ＩＤ＝３」のレコードは、原子記号や分子の表現など原子分子関係の表現（Ｈ，Ｈｅなど）が「ｎ３」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「特許文書」と決定する、ことを示す。

図２４において、「ＩＤ＝４」のレコードは、意見文特有の表現「と思う」「だろう」「かな」が「ｎ４」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「意見文書」と決定する、ことを示す。

図２４において、「ＩＤ＝５」のレコードは、箇条書き表現が「ｎ５」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「箇条書文書」と決定する、ことを示す。箇条書き表現は、例えば、入力の文章群がＨＴＭＬテキストであれば、箇条書き用のＨＴＭＬタグ（<ul>や<li>など）である。また、入力の文章群がＴｅＸであれば、\itemや\begin{itemize}などである。さらに、文章群タイプ決定部２１１０７は、「・」で始まる文が連続している、数字から始まる文が連続していることを検出し、箇条書の特定をしてもよい。図２４において「＄箇条書表現」は、箇条書きの表現を示す変数である。

図２４において、「ＩＤ＝６」のレコードは、人名が「ｎ６」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「人名文書」と決定する、ことを示す。

図２４において、「ＩＤ＝７」のレコードは、地名が「ｎ７」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「地名文書」と決定する、ことを示す。

ここで、文章群タイプ決定部２１１０７は、例えば、以下のように人名や地名などの固有表現を抽出する。つまり、機械学習を用いて固有表現を抽出する手法がある（例えば、以下の参考文献（１）参照）。

参考文献（１）：浅原正幸，松本裕治，日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002

まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O

上記において、B−？？？は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、B−LOCATIONは、地名という固有表現の始まりを意味しており、B−PERSONは、人名という固有表現の始まりを意味している。また、I−？？？は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。

このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。

この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−Bは、日本という単語の先頭を意味し、名詞−Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校ガッコウ学校名詞−一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ

このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

なお、例えば、上記の参考文献（１）では、素性として、入力文を構成する文字の、文字自体（例えば、「小」という文字）、字種（例えば、ひらがなやカタカナ等）、品詞情報、タグ情報（例えば、「B−PERSON」等）を利用している。

これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。

固有表現の抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある（参考文献（２）参照）。

参考文献（２）：内元清貴，馬青，村田真樹，小作浩美，内山将夫，井佐原均，最大エントロピーモデルと書き換え規則に基づく固有表現抽出，言語処理学会誌, Vol.7, No.2,2000

また、例えば、以下の参考文献（３）に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。

参考文献（３）：山田寛康，工藤拓，松本裕治，Support Vector Machineを用いた日本語固有表現抽出，情報処理学会論文誌, Vol.43, No.1", 2002

そして、固有表現（人名や地名）を抽出した後、当該固有表現を用いて、文章群タイプ決定部２１１０７は、図２４の「ＩＤ＝６」や「ＩＤ＝７」に合致するか否かを判断し、文章群のタイプ情報を決定する。

なお、文章群タイプ「人名文書」「地名文書」の決定方法は他の方法でも良いことは言うまでもない。例えば、判断情報格納部２１１０６は、人名辞書や地名辞書を保持しており、かかる辞書を検索し、文章群タイプ決定部２１１０７は、入力の文章群における人名や地名の数をカウントし、上記の出現情報を適用し、文章群タイプを決定しても良い。

また、図２４において、「ＩＤ＝８」のレコードは、子供向けのテキストに多く出現しそうな表現「キッズ」や「子供」などが「ｎ８」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「子供文書」と決定する、ことを示す。

図２４において、「ＩＤ＝９」のレコードは、ひらがなの割合が「６０」％以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「子供文書」と決定する、ことを示す。

さらに、図２４において、「ＩＤ＝１０」のレコードは、作品名の数が、「ｎ９」個以上、入力された文書（文章群）に存在すれば、文章群タイプ決定部２１１０７は、文章群タイプを「作品名文書」と決定する、ことを示す。なお、文章群タイプ決定部２１１０７は、例えば、上述した固有表現抽出技術を使って作品名を抽出する。また、例えば、文章群タイプ決定部２１１０７は、作品名の辞書（判断情報格納部２１１０６が保持）を検索し、文章群タイプ決定部２１１０７は、入力の文章群における作品名の数をカウントし、上記の出現情報を適用し、文章群タイプを決定しても良い。

以上のように、文章群タイプ決定部２１１０７は、ルールに基づいて、入力された文章群のタイプを自動的に決定する。そして、制御部２１１０８は、決定された文章群のタイプに対応した文字列抽出部を選択する。

文章群のタイプが「特許文書」「ＨＴＭＬ文書」「科学文書」の場合については、既に説明した。

文章群のタイプが「意見文書」の場合は、既に説明したプラスイメージとマイナスイメージの副詞（又は形容詞）を色分けして強調表示する処理部が選択される。

文章群のタイプが「箇条書文書」の場合は、後述する箇条書きの順序を変更する処理を行う処理部が選択される。

文章群のタイプが「人名文書」や「地名文書」の場合は、後述する出現頻度に応じた文字列装飾を行う処理部が選択される。

文章群のタイプが「子供文書」の場合は、後述する漢字に読み仮名を挿入する処理を行う処理部が選択される。

文章群のタイプが「作品名文書」の場合は、後述する著者の情報を挿入する処理部が選択される。

また、文章群タイプ決定部２１１０７は、「優先度」の情報を用いて、複数の判断情報が適用され得る場合は優先順位の高いものを使うことが好適である。

さらに、ユーザは、図２４の「ｎ１」から「ｎ９」などの出現情報や、優先度のカスタマイズができることは好適である。

また、例えば、文章群タイプ決定部２１１０７は、以下のようなルールに基づく自動判定方法により、文章群タイプを決定しても良い。ここでの方法は、人手でルールを作って固有表現を取り出し、取り出した固有表現から文章群タイプを決定する、という方法である。判断情報格納部２１１０６は、例えば、「名詞＋「さん」→人名」「名詞＋「首相」→人名」「名詞＋「町」→地名」「名詞＋「市」→地名」などの判断情報を保持している。上記の「名詞＋「さん」→人名」は、名詞に続いて「さん」が出現した場合、その名詞を「人名」として認識することを示す。そして、文章群タイプ決定部２１１０７は、かかる判断情報を用いて、文章群から人名や地名を抽出し、例えば、人名や地名が所定の閾値以上存在する場合に、当該文章群を人名文書、地名文書と決定する。

上記は、ルールによる文章群の分類方法を示したが、以下の得点による方法でもよい。つまり、判断情報格納部２１１０６は、図２５に示すような得点管理表を保持している。得点管理表は、「ＩＤ」「文章群タイプ」「特有表現」「得点」の属性を有するレコードを１以上保持している。文章群タイプ決定部２１１０７は、上記示した文章群タイプごとの特徴的な表現が出現した場合に、その表現ごとに得点を定めておき、その得点を文章群タイプに加算して、その合計点が最も高いものを、求める文章群タイプとする。なお、得点を用いる場合は閾値の得点を決めておき、「タイトル」を含む文書の場合、および閾値の得点以上の分類が一つもない場合に文章群タイプを「タイトル強調文書」と決定し、前述したタイトル強調を行う処理部が選択される。なお、「タイトル強調文書」は、ここでは、「ＨＴＭＬ文書」と同様の文章群タイプである。

次に、ステップＳ２２０１の文章群のタイプ決定処理の第二の例について説明する。第二の例は、機械学習アルゴリズムを用いて文章群のタイプを決定する方法である。

機械学習の手法は、問題−解の組のセット（これは上述した判断情報の一例である）を多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である（例えば、下記の参考文献（４）〜参考文献（６）参照）。

参考文献（４）：村田真樹，機械学習に基づく言語処理，龍谷大学理工学部．招待講演．2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf

参考文献（５）：サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳，村田真樹，馬青，内元清貴，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ，2001年．

参考文献（６）：SENSEVAL2J辞書タスクでのＣＲＬの取り組み，村田真樹，内山将夫，内元清貴，馬青，井佐原均，電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ，2001年．

機械学習アルゴリズムを動作させるために、問題の状況を機械に伝える際に、素性（解析に用いる情報で問題を構成する各要素）というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題：「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。なお、素性とは、上述した文章群属性情報と同じである。

すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。なお、ここで、「解」とは、文章群タイプのことである。また、後述する「分類」も、ここでの文章群タイプのことである。

文章群タイプ決定部２１１０７は、機械学習の手法として、例えば、ｋ近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。

ｋ近傍法は、最も類似する一つの事例のかわりに、最も類似するｋ個の事例を用いて、このｋ個の事例での多数決によって分類先（解）を求める手法である。ｋは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈ｂで分類ａを出力する確率は、以下の数式６で与えられる。

ただし、ここで文脈ｂは、あらかじめ設定しておいた素性ｆ_j（∈Ｆ，１≦ｊ≦ｋ）の集合である。ｐ（ｂ）は、文脈ｂの出現確率である。ここで、分類ａに非依存であって定数のために計算しない。Ｐ（ａ）（ここでＰはｐの上部にチルダ）とＰ（ｆ_i｜ａ）は、それぞれ教師データ（判断情報と同意義）から推定された確率であって、分類ａの出現確率、分類ａのときに素性ｆ_iを持つ確率を意味する。Ｐ（ｆ_i｜ａ）として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数式６の２行目の式の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数式７を用いてスームージングを行ったものを用いる。

ただし、ｆｒｅｑ（ｆ_i，ａ）は、素性ｆ_iを持ちかつ分類がａである事例の個数、ｆｒｅｑ（ａ）は、分類がａである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性ｆ_j(∈Ｆ，１≦ｊ≦ｋ）のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈ｂで分類ａを出力する確率は以下の数式８によって与えられる。

ただし、ｆ_maxは以下の数式９によって与えられる。

また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、素性ｆ_jを文脈に持つ場合の分類ａ_iの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性ｆ_j（１≦ｊ≦ｋ）の集合をＦとするとき、以下の所定の条件式（数式１０）を満足しながらエントロピーを意味する式（数式１１）を最大にするときの確率分布ｐ（ａ，ｂ）を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、Ａ、Ｂは分類と文脈の集合を意味し、ｇ_j（ａ，ｂ）は文脈ｂに素性ｆ_jがあって、なおかつ分類がａの場合１となり、それ以外で０となる関数を意味する。また、Ｐ（ａ_i｜ｆ_j）（ここでＰはｐの上部にチルダ）は、既知データでの（ａ，ｂ）の出現の割合を意味する。

数式１０は、確率ｐと出力と素性の組の出現を意味する関数ｇをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献（７）および参考文献（８）に記載されている。

参考文献（８）：Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997

参考文献（９）：Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release1.6beta, (http://www.mnemonic.com/software/memt,1998) ）

サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図２６にサポートベクトルマシン法のマージン最大化の概念を示す。図２６において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図２６（Ａ）は、正例と負例の間隔が狭い場合（スモールマージン）の概念図、図２６（Ｂ）は、正例と負例の間隔が広い場合（ラージマージン）の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔（マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図２６（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張（カーネル関数の導入)がなされたものが用いられる。

この拡張された方法は、以下の識別関数（ｆ（ｘ））を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
ただし、ｘは識別したい事例の文脈（素性の集合)を、ｘ_iとｙ_j（ｉ＝１，…，ｌ，ｙj∈｛１，−１｝）は学習データの文脈と分類先を意味し、関数ｓｇｎは、
ｓｇｎ（ｘ）＝１（ｘ≧０）
−１（otherwise）
であり、また、各α_iは上記数式１２の式（１３−２）と式（１３−３）の制約のもと、式（１３−１）を最大にする場合のものである。

また、関数Ｋはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では、例えば、以下の多項式（数式１４）のものを用いる。

数式１３、数式１４において、Ｃ、ｄは実験的に設定される定数である。例えば、Ｃはすべての処理を通して１に固定した。また、ｄは、１と２の二種類を試している。ここで、α_i＞０となるｘ_iは、サポートベクトルと呼ばれ、通常、数式１２の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献（９）および参考文献（１０）に記載されている。

参考文献（１０）：Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)

参考文献（１１）：Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aistnara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)

サポートベクトルマシン法は、分類の数が２個のデータを扱うものである。したがって、分類の数が３個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンＶＳレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、ｎ個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア（ｎ（ｎ−１）／２個）を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、ｎ（ｎ−１）／２個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンＶＳレスト法は、例えば、ａ、ｂ、ｃという三つの分類先があるときは、分類先ａとその他、分類先ｂとその他、分類先ｃとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき問題が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある解くべき問題が、「分類先ａとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その解くべき問題の分類先は、aと推定する。

タイプ情報決定手段２１１０７２が推定する、解くべき問題についての、どのような解（分類先）になりやすいかの度合いの求め方は、タイプ情報決定手段２１１０７２が機械学習の手法として用いる様々な方法によって異なる。

例えば、本発明の実施の形態において、タイプ情報決定手段２１１０７２が、機械学習の手法としてｋ近傍法を用いる場合、タイプ情報決定手段２１１０７２は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合（同じ素性をいくつ持っているかの割合）にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として判断情報格納部２１１０６に記憶しておく。

そして、タイプ情報決定手段２１１０７２は、文章群属性情報取得手段２１１０７１によって解くべき問題の素性（文章群属性情報）が抽出されたときに、判断情報格納部２１１０６において定義された類似度と事例を参照して、文章群属性情報取得手段２１１０７１によって抽出された解くべき問題の素性について、その解くべき問題の素性の類似度が高い順にｋ個の事例を判断情報格納部２１１０６の事例から選択し、選択したｋ個の事例での多数決によって決まった分類先を、解くべき問題の分類先（解）として推定する。すなわち、タイプ情報決定手段２１１０７２では、解くべき問題についての、どのような解（分類先）になりやすいかの度合いを、選択したｋ個の事例での多数決の票数とする。

また、機械学習手法として、シンプルベイズ法を用いる場合には、教師データの事例について、前記事例の解と素性の集合との組を判断情報として判断情報格納部２１１０６に記憶する。そして、タイプ情報決定手段２１１０７２は、文章群属性情報取得手段２１１０７１によって解くべき問題の素性が抽出されたときに、判断情報格納部２１１０６の判断情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて文章群属性情報取得手段２１１０７１で取得した解くべき問題の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解くべき問題の素性の分類（解）と推定する。すなわち、タイプ情報決定手段２１１０７２では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。

また、機械学習手法として決定リスト法を用いる場合には、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを、予め、何らかの手段により、判断情報格納部２１１０６に記憶させる。そして、文章群属性情報取得手段２１１０７１によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段２１１０７２は、判断情報格納部２１１０６のリストの優先順位の高い順に、抽出された解くべき問題の素性と規則の素性とを比較し、素性が一致した規則の分類先をその解くべき問題の分類先（解）として推定する。

また、機械学習手法として最大エントロピー法を使用する場合には、教師データの事例から解となりうる分類を特定し、所定の条件式を満足し、かつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて、判断情報格納部２１１０６に記憶する。そして、文章群属性情報取得手段２１１０７１によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段２１１０７２は、判断情報格納部２１１０６の確率分布を利用して、抽出された解くべき問題の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその解くべき問題の解と推定する。すなわち、タイプ情報決定手段２１１０７２では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて判断情報格納部２１１０６に記憶する。そして、文章群属性情報取得手段２１１０７１によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段２１１０７２は、判断情報格納部２１１０６の超平面を利用して、解くべき問題の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その解くべき問題の解と推定する。すなわち、タイプ情報決定手段２１１０７２では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、分離平面からのその解くべき問題の事例への距離の大きさとする。

以下に、さらに具体的な例を用いて、教師データあり機械学習に基づいて、文章群タイプを決定する方法について説明する。

判断情報格納部２１１０６は、１以上の素性の集合と、文章群タイプ（タイプ情報）の対である判断情報を１以上格納している。ここで、素性は、例えば、文書に出現する単語、文書に出現する文字列、文書に出現する文末の文字列、文書に出現するあらかじめ定めた特徴的な表現、文書に出現するあらかじめ定めた特徴的な表現の出現頻度、文書に出現するあらかじめ定めた特徴的な表現の出現密度などのうちの１以上の情報である。例えば、判断情報格納部２１１０６は、図２７に示すような１以上の文書群教師データを格納している。

そして、文章群受付部１１０４が入力の文章群を受け付けた場合、文章群タイプ決定部２１１０７の文章群属性情報取得手段２１１０７１は、当該文章群から予め決められた素性（文章群属性情報）を取得し、タイプ情報決定手段２１１０７２は、上記で説明した機械学習のアルゴリズムにより、図２７の文書群教師データを用いて、当該文章群のタイプ情報を決定する。そして、情報処理装置２１１は、決定したタイプ情報に応じた文字列抽出部を呼び出し、文字列加工部２１１０４は、決定したタイプ情報に応じた文字列の加工を行う。加工の方法は、本明細書で述べた種々の方法があり、その他、本明細書で述べていない加工を行っても良い。

また、例えば、文章群属性情報取得手段２１１０７１と同様の機能を有する図示しない学習手段は、学習対象の文章群学習データ「「Aと思います．」→「意見文書（副詞強調）」」、「「Bと思います．」→「意見文書（副詞強調）」」「「Cだった．」→「タイトル強調」」を読み込んで、処理し、以下に示す判断情報を得る、とする。

つまり、図示しない学習手段は、「「Aと思います．」→「意見文書（副詞強調）」」から素性「思います．」「います．」を取得し、素性「思います．」「います．」とタイプ情報「意見文書（副詞強調）」を得て、判断情報格納部２１１０６に蓄積する。同様に、図示しない学習手段は、「「Bと思います．」→「意見文書（副詞強調）」」から素性「思います．」「います．」を取得し、素性「思います．」「います．」とタイプ情報「意見文書（副詞強調）」を得て、判断情報格納部２１１０６に蓄積する。同様に、図示しない学習手段は、「「Cだった．」→「タイトル強調」」から素性「だった．」「った．」を取得し、素性「だった．」「った．」とタイプ情報「タイトル強調」を得て、判断情報格納部２１１０６に蓄積する。以上より、「思います．」という素性があると「意見文書（副詞強調）」であり、そうでない場合は、「タイトル強調」である、という学習をしたこととなる。

そこで、新しい文として「Dした．」という文章群が入力されると、文章群属性情報取得手段２１１０７１は、素性「した．」「た．」を取得し、上記の機械学習のいずれかのアルゴリズムにより、「思います．」の素性がないため、タイプ情報決定手段２１１０７２は、文章群タイプ「タイトル強調」と判断する。

そして、制御部２１１０８は、決定された文章群のタイプに対応した文字列抽出部を選択する。その結果、文章群タイプに対応した文字列の処理が可能となる。

以上、本実施の形態によれば、自動的に、またはユーザの選択により、文章タイプを決定し、文章タイプに応じた文章処理（テキスト強調表示）ができる。

なお、本実施の形態によれば、自動的に文章のタイプを決定したが、ユーザが選択しても良い。つまり、ユーザは、動作させる文字列抽出部（第一文字列抽出部２１１０１、第二文字列抽出部２１１０２などのうちの1以上の文字列抽出部）を、マウス等の入力手段を用いて選択し、当該選択された文字列抽出部を起動しても良い。

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性に従った文字列に加工を行う文字列加工部と、前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。

また、上記プログラムは、コンピュータを、記憶媒体に格納されている判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部としてさらに機能させるためのプログラム、であることは好適である。

また、上記プログラムにおける、前記記憶媒体に格納されている判断情報は、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である２以上の文章群教師データであり、前記文章群タイプ決定部は、前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、前記２以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備するものとして、コンピュータを、機能させるためのプログラム、であることは好適である。
（実施の形態３）

本実施の形態において、文章群から用語辞書に存在する用語を検索し、当該用語に対応する文字列を、文書群中の用語に隣接する位置に、括弧付きまたは括弧なしで挿入する情報処理装置について説明する。用語辞書が、漢字列と漢字の読み仮名の対の情報である場合、文章群中の漢字列に読み仮名が自動的に挿入される。用語辞書が、書籍名と書籍の属性を示す属性情報である場合、文章群中の書籍名に、著者名などの書籍の関連情報が自動的に挿入される。

図２８は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置２８１と、1以上のサーバ装置１２を具備する。

情報処理装置２８１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、変換用語情報格納部２８１０１、補足用語挿入部２８１０２、文章群引渡部２８１０３、出力部２１１０５を具備する。

補足用語挿入部２８１０２は、文字列抽出手段２８１０２１、文字列加工手段２８１０２２を具備する。

変換用語情報格納部２８１０１は、用語と補足用語の対である変換用語情報を格納している。補足用語とは、用語に対して補足する用語である。変換用語情報は、例えば、漢字列と漢字の読み仮名の対の情報（例えば、漢字列「齟齬」、読み仮名「そご」など）である。変換用語情報は、例えば、書籍名と書籍の属性を示す属性情報である。属性情報は、例えば、著者名、出版年、出版社、出版の版数などである。変換用語情報格納部２８１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

補足用語挿入部２８１０２は、受け付けた文章群に対して、変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する。補足用語は、変換用語情報格納部２８１０１から読み出される。補足用語挿入部２８１０２は、通常、ＭＰＵやメモリ等から実現され得る。補足用語挿入部２８１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

補足用語挿入部２８１０２を構成する文字列抽出手段２８１０２１は、受け付けた文章群に対して、変換用語情報が有する用語を検索し、抽出する。

文字列加工手段２８１０２２は、文字列抽出手段２８１０２１が検索した用語と対になる補足用語を変換用語情報格納部２８１０１から読み出し、当該補足用語を、文字列抽出手段２８１０２１が検索した用語に隣接する位置に、括弧付きまたは括弧なしで挿入する。隣接する位置とは、前、後ろ、上、下など、問わない。文字列加工手段２８１０２２は、出力する文章群を構成し、メモリ上に配置する。

なお、補足用語挿入部２８１０２は、インタプリタ型のプログラム言語で実現されていることが好適である。一方、文章群受付部１１０４、文章群引渡部２８１０３は、コンパイル型のプログラム言語で実現されていることが好適である。

文章群引渡部２８１０３は、補足用語挿入部２８１０２が挿入した補足用語を含む出力文章群を、出力部２１１０５に渡す。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。文章群引渡部２８１０３は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。文章群引渡部２８１０３は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、情報処理装置２８１の動作について図２９のフローチャートを用いて説明する。

（ステップＳ２９０１）文字列抽出手段２８１０２１は、カウントｉに１を代入する。

（ステップＳ２９０２）文字列抽出手段２８１０２１は、ｉ番目の用語が変換用語情報格納部２８１０１に存在するか否かを判断する。ｉ番目の用語が存在すればステップＳ２９０３に行き、ｉ番目の用語が存在しなければ処理を終了する。

（ステップＳ２９０３）文字列抽出手段２８１０２１は、変換用語情報格納部２８１０１から、ｉ番目の用語を取得し、メモリ上に配置する。

（ステップＳ２９０４）文字列抽出手段２８１０２１は、カウントｊに０を代入する。

（ステップＳ２９０５）文字列抽出手段２８１０２１は、（ｊ＋ｉ番目の用語の文字列長−１）ｂｙｔｅ目が文章群の終端であるか否か（例えば、ＥＯＦであるか否か）を判断する。文章群の終端であればステップＳ２９１３に行き、文章群の終端でなければステップＳ２９０６に行く。

（ステップＳ２９０６）文字列抽出手段２８１０２１は、ｊｂｙｔｅ目からｉ番目の用語の文字列長文の文字列を取得し、メモリ上に配置する。

（ステップＳ２９０７）文字列抽出手段２８１０２１は、ステップＳ２９０６で取得した文字列と、ｉ番目の用語が一致するか否かを判断する。両者が一致すればステップＳ２９０８に行き、一致しなければステップＳ２９１２に行く。

（ステップＳ２９０８）文字列加工手段２８１０２２は、ｉ番目の用語に対応する補足用語を変換用語情報格納部２８１０１から読み出し、メモリ上に配置する。

（ステップＳ２９０９）文字列加工手段２８１０２２は、ステップＳ２９０８で読み出した補足用語を用いて、挿入する補足用語を構成する。挿入する補足用語とは、読み出した補足用語（例えば、ＡＢＣ）に括弧「（）」を付与した文字列（例えば、（ＡＢＣ））である。なお、挿入する補足用語は、ステップＳ２９０８で読み出した文字列そのままでも良い。かかる場合、ステップＳ２９０９における処理は不要である。

（ステップＳ２９１０）文字列加工手段２８１０２２は、ステップＳ２９０８で取得した補足用語、またはステップＳ２９０９で構成した補足用語を、ｉ番目の用語に隣接する位置（文章群中）に挿入する。

（ステップＳ２９１１）文字列抽出手段２８１０２１は、カウントｊに、「ｊ＋ｉ番目の用語の文字列長」を代入する。ステップＳ２９０５に戻る。

（ステップＳ２９１２）文字列抽出手段２８１０２１は、カウントｊを１、インクリメントする。ステップＳ２９０５に戻る。

（ステップＳ２９１３）文字列抽出手段２８１０２１は、カウントｉを１、インクリメントする。ステップＳ２９０２に戻る。

以下、本実施の形態における情報処理装置２８１を含む情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図１である。
（具体例１）

まず、第一の具体例について説明する。第一の具体例は、漢字列に対して、漢字の読み仮名を挿入する例である。

図３０は、変換用語情報格納部２８１０１の漢字読み仮名辞書である。漢字読み仮名辞書は、「漢字列」「読み仮名」の対の情報を複数、有する。

かかる状況により、ユーザは、情報処理装置２８１にインストールされているソフトウェアであり、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部２１１０５を具備するソフトウェアであるＷｅｂブラウザを操作し、情報処理装置２８１の文章群受信部１１０３は、一のサーバ装置１２から、図３１に示す文章群を受信した、とする。

次に、文章群受付部１１０４は、文章群受信部１１０３が受信した図３１の文書群を受け付ける。そして、補足用語挿入部２８１０２は、図３１の文書群に対して、図３０の漢字読み仮名辞書中の各漢字列が存在するか否かの検索をかける。

そして、補足用語挿入部２８１０２は、図３０の漢字読み仮名辞書中の漢字列である「簡便」が、図３１の文書群に存在することを検出する。

次に、漢字列「簡便」に対する読み仮名「かんべん」を図３０の漢字読み仮名辞書から読み出す。そして、補足用語挿入部２８１０２は、読み仮名「かんべん」に対して、括弧を付与し、挿入する用語「（かんべん）」を構成する。

次に、補足用語挿入部２８１０２は、「（かんべん）」を、文章群中の漢字列「簡便」の隣接する位置（ここでは、上部）に配置する。

同様に、補足用語挿入部２８１０２は、漢字列「閲覧」と「環境」に対する読み仮名「えつらん」「かんきょう」を漢字読み仮名辞書から読み出す。そして、補足用語挿入部２８１０２は、各読み仮名「えつらん」「かんきょう」に対して、括弧を付与し、挿入する用語「（えつらん）」「（かんきょう）」を構成する。

次に、補足用語挿入部２８１０２は、各挿入する用語「（えつらん）」「（かんきょう）」を、文章群中の各漢字列「閲覧」と「環境」の隣接する位置（ここでは、上部）に配置する。

その結果、補足用語挿入部２８１０２は、出力する文章群を得る。そして、文章群引渡部２８１０３は、補足用語挿入部２８１０２から出力する文章群を受け取り、出力部２１１０５に渡す。次に、出力部２１１０５は、図３２に示すように、出力文章群を出力する。

なお、本具体例において、挿入する補足用語の文字色やフォント等の文字属性を、文章群中の文字色やフォント等の文字属性と比べて変更しても良い。また、本具体例において、検索された用語（ここでは、漢字列）の文字色やフォント等の文字属性を変更しても良い。

また、図３１の文書群は、サーバ装置１２に格納されている、いわゆるホームページであることは好適である。

本具体例における機能は、子供たちが、インターネットを用いて、ホームページを検索し、種々のことを調べることに寄与する。つまり、本具体例における機能は、教育を促進するものである。

なお、本具体例において、図示しない文章群タイプ決定手段が、所定の条件に合致する場合に、子供向けの文章群であると判断し、自動的に上述した漢字にひらがなを挿入する処理を文章群に対して行っても良い。ここで、
所定の条件とは、文章群中の文字列の漢字の割合が一定以下であること、予め決められた用語（例えば、「ＫＩＤ」「キッズ」「こども」など）が存在するか否か、予め決められた用語の出現数である。つまり、文章群タイプ決定手段は、文章群中の文字列の漢字の割合や、予め決められた用語の出現数を算出し、当該割合や出現数を用いて（一定以下の割合や、一定以上の出現数の場合）、当該文章群を、子供向けの文章群であると判断しても良い。
（具体例２）

次に、第二の具体例について説明する。第二の具体例は、書籍名に対して、書籍の属性を示す属性情報（例えば、著者名）を挿入する例である。

図３３は、変換用語情報格納部２８１０１の書籍情報辞書である。書籍情報辞書は、ここでは「書籍名」「著者名」の対の情報を複数、有する。なお、書籍情報辞書は、「書籍名」「著者名」以外の出版年や出版社などの情報も有しても良いことは言うまでもない。

かかる状況により、ユーザは、情報処理装置２８１にインストールされているソフトウェアであり、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部２１１０５を具備するソフトウェアであるＷｅｂブラウザを操作し、情報処理装置２８１の文章群受信部１１０３は、一のサーバ装置１２から、図３４に示す文章群を受信した、とする。

次に、文章群受付部１１０４は、文章群受信部１１０３が受信した図３４の文書群を受け付ける。そして、補足用語挿入部２８１０２は、図３４の文書群に対して、図３３の書籍情報辞書中の各書籍名が存在するか否かの検索をかける。

そして、補足用語挿入部２８１０２は、図３３の書籍情報辞書中の書籍名である「ぼっちゃん」が、図３４の文書群に存在することを検出する。

次に、補足用語挿入部２８１０２は、書籍名「ぼっちゃん」に対する著者名「夏目漱石」を図３３の書籍情報辞書から読み出す。そして、補足用語挿入部２８１０２は、著者名「夏目漱石」に対して、その直前に「，」その直後に漢字「著」を付与し、挿入する用語「，夏目漱石著」を構成する。

次に、補足用語挿入部２８１０２は、「，夏目漱石著」を、文章群中の書籍名「ぼっちゃん」の隣接する位置（ここでは、直後）に配置する。また、補足用語挿入部２８１０２は、検索した書籍名の文字列「ぼっちゃん」に下線の属性を付与する、とする。

同様に、補足用語挿入部２８１０２は、図３３の書籍情報辞書中の書籍名である「蜘蛛の糸」が、図３４の文書群に存在することを検出する。

次に、補足用語挿入部２８１０２は、書籍名「蜘蛛の糸」に対する著者名「芥川龍之介」を書籍情報辞書から読み出す。そして、補足用語挿入部２８１０２は、著者名「芥川龍之介」に対して、その直前に「，」その直後に漢字「著」を付与し、挿入する用語「，芥川龍之介著」を構成する。

次に、補足用語挿入部２８１０２は、「，芥川龍之介著」を、文章群中の書籍名「蜘蛛の糸」の隣接する位置（ここでは、直後）に配置する。また、補足用語挿入部２８１０２は、検索した書籍名の文字列「蜘蛛の糸」に下線の属性を付与する、とする。

その結果、補足用語挿入部２８１０２は、出力する文章群を得る。そして、文章群引渡部２８１０３は、補足用語挿入部２８１０２から出力する文章群を受け取り、出力部２１１０５に渡す。次に、出力部２１１０５は、図３５に示すように、出力文章群を出力する。

また、図３４の文書群は、サーバ装置１２に格納されている、いわゆるホームページであることは好適である。
（具体例３）

次に、第三の具体例について説明する。第二の具体例は、地名、住所に対して、当該地名、住所が示す地点の最寄り駅を挿入する例である。

文字列抽出手段２８１０２１は、文章群受信部１１０３が受け付けた文章群から、地名または住所を抽出する。文字列抽出手段２８１０２１は、例えば、地名辞書を持っており、その辞書を参照し、地名を抽出する。また、文字列抽出手段２８１０２１は、例えば、住所の特有の表記（都道府県の名称、市の名称、丁目、番、号など）の情報や、地名の情報を保持しており、かかる表記を用いて、住所や地名を抽出しても良い。さらに、文字列抽出手段２８１０２１は、上述した固有表現抽出のいずれかの方法を利用して、住所や地名を抽出しても良い。

また、文字列加工手段２８１０２２は、例えば、住所や地名、と位置情報（緯度経度）の情報を対で持っており、かつ、駅名と位置情報（緯度経度）の情報を対で持っている、とする。そして、文字列抽出手段２８１０２１が抽出した住所や地名から位置情報（緯度経度）を取得し、当該位置情報にもっとも近い位置情報と対になる駅名を取得する。そして、文字列加工手段２８１０２２は、住所や地名の後ろに「（駅名）」を挿入する。以上の処理により、文章群中の住所や地名に、最寄り駅の名称が挿入される。

また、例えば、以下のような方法により、地名、住所に対して、当該地名、住所が示す地点の最寄り駅を挿入しても良い。つまり、変換用語情報格納部２８１０１は、地名と最寄り駅の情報を有する変換用語情報や、住所と最寄り駅の情報を有する変換用語情報を格納している。そして、補足用語挿入部２８１０２は、受け付けた文章群に対して、変換用語情報が有する地名または住所を検索し、当該検索した地名または住所に隣接して、当該用語（地名または住所）と対になる最寄り駅を括弧付きまたは括弧なしで挿入する。

以上、本実施の形態によれば、取得した文章群に対して、自動的に必要な情報の補足を行って、読みやすい、または有益な文章群を提供できる。

なお、本実施の形態によれば、補足用語は、漢字に対するひらがな、著書に対する著書の属性、住所に対する最寄り駅であった。しかし、補足用語は、何でも良い。補足用語は、例えば、住所に対する郵便番号などでも良い。

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。
（実施の形態４）

本実施の形態において、所定の条件に合致する文字列に対して、強調表示を行うテキスト処理を行う情報処理装置やプログラムにおいて、出現頻度や出現確率の高い用語に関しては、強調表示を行わない態様について説明する。また、ユーザから指示された用語に対して、強調表示を行わない態様についても説明する。

図３６は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置３６１と、1以上のサーバ装置１２を具備する。

情報処理装置３６１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、文字列抽出部１１０５、文字列加工部１１０６、文章群引渡部１１０７、出力部１１０８、出現頻度取得部３６１０１、制御部３６１０２を具備する。

出現頻度取得部３６１０１は、文字列抽出部１１０５が抽出した文字列を用いて、文章群受信部１１０３が受け付けた文章群または、外部の装置（例えば、1以上のサーバ装置１２）に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する。出現頻度とは、出現の度合いを示す情報であり、出現回数でも良いし、出現確率でも良いし、出現する文献（ファイル）数でも良い。出現頻度取得部３６１０１は、通常、ＭＰＵやメモリ等から実現され得る。出現頻度取得部３６１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

制御部３６１０２は、出現頻度取得部３６１０１が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する。まず、例えば、制御部３６１０２は、出現頻度取得部３６１０１が取得した出現頻度と、予め格納されている閾値を比較し、例えば、「出現頻度＜閾値」である場合、出現頻度が一定の条件を満たすと判断する。そして、制御部３６１０２は、出現頻度が多い文字列の強調表示を実現する文字列の属性値を、他の強調表示ではない文字列の属性値に変更する。また、指示受付部１１０１がユーザから、強調表示を停止する指示を、ある用語（文字列）に対して受け付けた場合、制御部３６１０２は、当該用語の強調表示を停止する処理（例えば、上記の属性値の変更）を行う。制御部３６１０２は、通常、ＭＰＵやメモリ等から実現され得る。制御部３６１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

なお、情報処理装置３６１のうち、文章群受付部１１０４、および文章群引渡部１１０７は、コンパイル型のプログラム言語で実現されることが好適であり、文字列抽出部１１０５、文字列加工部１１０６、出現頻度取得部３６１０１、および制御部３６１０２は、インタプリタ型のプログラム言語で実現されることが好適である。

次に、情報処理装置３６１の動作について説明する。情報処理装置３６１の動作について、図３のフローチャートとは、ステップＳ３０５が異なる。ステップＳ３０５を、情報処理装置３６１の動作に改良した動作を、図３７のフローチャートを用いて説明する。図３７のフローチャートは、ステップＳ３０５と同様のステップから開始される。

（ステップＳ３７０１）出現頻度取得部３６１０１は、カウンタｉに１を代入する。

（ステップＳ３７０２）出現頻度取得部３６１０１は、ステップＳ３０５で取得した１以上の文字列群の中に、i番目の文字列が存在するか否かを判断する。i番目の文字列が存在すればステップＳ３７０３に行き、存在しなければ上位処理にリターンする。

（ステップＳ３７０３）出現頻度取得部３６１０１は、i番目の文字列をキーとして、受け付けた文章群または外部の装置を検索する。そして、出現頻度取得部３６１０１は、i番目の文字列の出現頻度を取得する。

（ステップＳ３７０４）制御部３６１０２は、出現頻度に関する条件の情報（例えば、出現回数の閾値、出現する文献数の閾値、出現確率（全文字数のうちの出現回数の割合）の閾値など）を読み出す。

（ステップＳ３７０５）制御部３６１０２は、ステップＳ３７０４で読み出した条件に、ステップＳ３７０３で取得した出現頻度が合致するか否かを判断する。合致するとの判断の場合ステップＳ３７０６に行き、合致しないとの判断の場合ステップＳ３７０７に行く。

（ステップＳ３７０６）制御部３６１０２は、ステップＳ３０５で取得した１以上の文字列群から、i番目の文字列を削除する。

（ステップＳ３７０７）出現頻度取得部３６１０１は、カウンタｉを１、インクリメントする。ステップＳ３７０２に戻る。

以下、本実施の形態における情報処理装置の具体的な動作について説明する。情報処理装置の概念図は図１である。
（具体例１）

具体例１において、文章群中の出現回数が所定回数以上の用語について、強調表示しない例を説明する。また、ここでは、文章群は特許書類である、とする。

例えば、図１３に示す請求項に対して、図１４に示す用語が抽出された、とする。そして、出現頻度取得部３６１０１は、図１４の下記用語の、特許請求の範囲、特許明細書、要約書を含む特許書類の中での出現回数を算出し、図３８の出現頻度管理表を得た、とする。なお、用語の文章群中での出現回数の算出方法は、公知技術である。出現頻度管理表は、図１４の表に、「出現回数」を加えたものである。

また、制御部３６１０２は、出現頻度に関する条件の情報（ここでは、「出現回数が閾値「３０」より多い」）を読み出す、とする。

次に、制御部３６１０２は、読み出した条件「出現回数が閾値「３０」より多い」に、取得した各用語の出現頻度が合致するか否かを判断する。

そして、制御部３６１０２は、図３８の表から、条件に合致する用語のレコードを削除し、図３９の表を得る。

そして、以降、実施の形態１で説明した動作と同様に、特許書類中の用語「入力手段」「言葉変換手段」「出力手段」「変換装置」「差分」について、強調表示を行う。
（具体例２）

具体例２において、１以上のサーバ装置１２の多数のホームページ（文章群の一例）を検索し、出現確率が所定回数以上の用語について、強調表示しない例を説明する。また、ここでは、文章群はいわゆるホームページ（HTMLファイル）である、とする。

かかる状況において、情報処理装置３６１は、図７に示すような「重要語Ａ」「重要語Ｂ」「重要語Ｃ」を取得した、とする。そして、「重要語Ａ」「重要語Ｂ」「重要語Ｃ」をそれぞれキーとして、１以上のサーバ装置１２を検索し、各用語の出現確率を取得した、とする。ここで、出現確率の算出方法はいくつかあり、公知技術であるので、詳細な説明を省略する。そして、出現頻度取得部３６１０１は、例えば、「重要語Ａ：出現確率０．０００００１」「重要語Ｂ：出現確率０．００３」「重要語Ｃ：出現確率０．００００２」を得たとする。

次に、制御部３６１０２は、出現頻度に関する条件の情報（ここでは、「出現確率が閾値「０．００１」より大きい」）を読み出す、とする。

次に、制御部３６１０２は、読み出した条件「出現確率が閾値「０．００１」より大きい」に、取得した各用語の出現頻度が合致するか否かを判断する。ここで、制御部３６１０２は、「重要語Ｂ：出現確率０．００３」のみ条件に合致する、と判断する。

そして、制御部３６１０２は、「重要語Ｂ」の強調表示属性を消去する（または、文字列の属性値をデフォルトの属性値にする）。

そして、以降、実施の形態１で説明した動作と同様に、文章群中の用語「重要語Ａ」「重要語Ｃ」について、強調表示を行う（図７における重要語Ｂのすべての強調表示はなくなる）。
（具体例３）

具体例３において、検索された用語が強調表示されている文章群の表示を、ユーザが見た後、ユーザが、１以上の用語をマウス等の入力手段を用いて指定し、当該指定された用語の強調表示がはずれる（強調表示ではない状態の）態様について説明する。

図１３、図１５に示すディスプレイに表示された特許書類に対して、ユーザが入力手段（図示しない）を用いて、例えば、「言葉」を指示した、とする。

すると、指示受付部１１０１は、用語「言葉」を、強調表示しない用語として、受け付ける。なお、ユーザがマウスで「言葉」を指示した場合、指示受付部１１０１は、マウスで指示された座標値（ｘ，ｙ）を受け付け、座標値（ｘ，ｙ）から用語「言葉」を取得する。

次に、制御部３６１０２は、用語「言葉」の強調表示を停止するように、文字列加工部１１０６に指示する。

次に、文字列加工部１１０６は、制御部３６１０２の指示に従って、用語「言葉」を文章群中から検索し、用語「言葉」の文字属性値をデフォルトの属性値（強調表示しない属性値）に変更し、文章群引渡部１１０７が当該文章群を出力部１１０８に渡し、出力部１１０８が文章群を表示する。

以上、本実施の形態によれば、高出現頻度の用語を強調表示しないことにより、真に重要な用語のみ、強調表示できる。その結果、読みやすい文章群をユーザに提示できる。

また、本実施の形態によれば、一度、強調表示された用語に対して、ユーザの指示により強調表示を停止できる。その結果、そのユーザにとって、真に読みやすい文章群をユーザに提示できる。

なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるプログラムであって、コンピュータを、前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部としてさらに機能させ、前記出力部は、前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるプログラム、である。

また、本実施の形態における情報処理装置を実現するソフトウェアは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるプログラムであって、コンピュータを、一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部としてさらに機能させ、前記出力部は、前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるプログラム、である。
（実施の形態５）

本実施の形態において、文章群中の箇条書きされた箇所について、列記する順序を逆転させるテキスト処理を行う情報処理装置等について説明する。また、特定の条件に合致する場合のみ、箇条書きの列記順序を逆転させるテキスト処理を行う情報処理装置等についても説明する。

図３８は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置４０１と、1以上のサーバ装置１２を具備する。

情報処理装置４０１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、箇条書取得部４０１０１、条件判断部４０１０２、順序逆転部４０１０３、文章群引渡部１１０７、出力部１１０８を具備する。

箇条書取得部４０１０１は、受け付けた文章群中の、箇条書きの情報群を識別し、取得する。箇条書取得部４０１０１は、箇条書きを識別するための情報である箇条書情報を保持しており、当該箇条書情報を用いて、文章群を検索し、箇条書きの情報群を識別し、取得する。文章群がＨＴＭＬ文章である場合、箇条書情報は、<ul>と</ul>の組の情報などである。また、文章群がＴｅｘ文章である場合、箇条書情報は、\begin{itemize}と\end{itemize}の組、および\begin{enumerate}と\end{enumerate}の組、および\begin{description}と\end{description}の組の情報である。また、文章群がテキスト文書の場合、文字「・」と改行の組、および昇順に並ぶ数字と「．」と改行の組の情報である。箇条書情報は、通常、箇条書きの開始を示す情報である箇条書きの開始情報（例えば、<ul>、\begin{itemize}、行頭の"・"や行頭の数字"．"など）と、箇条書きの終了を示す情報である箇条書きの終了情報（例えば、</ul>、\end{itemize}、行頭の"・"であり、次行の行頭が"・"でない、という情報や行頭の数字"．"であり次行の行頭が数字"．"でない、という情報、など）を含む。箇条書取得部４０１０１は、通常、ＭＰＵやメモリ等から実現され得る。箇条書取得部４０１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

条件判断部４０１０２は、箇条書取得部４０１０１が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する。所定の条件とは、例えば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」など、である。条件判断部４０１０２は、通常、ＭＰＵやメモリ等から実現され得る。条件判断部４０１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

順序逆転部４０１０３は、箇条書取得部４０１０１が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する。順序逆転部４０１０３は、条件判断部４０１０２における判断結果が、条件に合致するとの判断の場合のみ、箇条書取得部４０１０１が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する、ことは好適である。なお、順序逆転部４０１０３は、条件判断部４０１０２の判断結果によらずに、常に、箇条書取得部４０１０１が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得しても良い。順序逆転部４０１０３は、箇条書きの情報群の箇条書きの項目を逆転させた文章群を取得し、文章群引渡部１１０７に渡す。順序逆転部４０１０３は、通常、ＭＰＵやメモリ等から実現され得る。順序逆転部４０１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置４０１の動作について図４１、図４２のフローチャートを用いて説明する。図４１のフローチャートにおいて、図３のフローチャートと同様のステップについて、説明を省略する。

（ステップＳ４１０１）箇条書取得部４０１０１は、文章群から１以上の箇条書き情報群を抽出する。１以上の箇条書き情報群を抽出する処理について、図４２フローチャートを用いて説明する。

（ステップＳ４１０２）条件判断部４０１０２は、条件を示す情報を読み出す。条件を示す情報とは、箇条書きの情報群が、所定の条件に合致するか否かを判断するための情報であり、予め条件判断部４０１０２が保持している、とする。

（ステップＳ４１０３）条件判断部４０１０２は、カウンタｉに１を代入する。

（ステップＳ４１０４）条件判断部４０１０２は、ｉ番目の箇条書き情報群が存在するか否かを判断する。ｉ番目の箇条書き情報群が存在すればステップＳ４１０５に行き、ｉ番目の箇条書き情報群が存在しなければステップＳ３１１に行く。

（ステップＳ４１０５）条件判断部４０１０２は、ｉ番目の箇条書き情報群が、ステップＳ４１０２で読み出した条件に合致するか否かを判断する。

（ステップＳ４１０６）ステップＳ４１０５における判断が、条件に合致するとの判断の場合はステップＳ４１０６に行き、条件に合致しないとの判断の場合はステップＳ４１０９に行く。

（ステップＳ４１０７）順序逆転部４０１０３は、ｉ番目の箇条書き情報群の各項目の順序を逆転させて、新しいｉ番目の箇条書き情報群を取得し、メモリ上に配置する。なお、ｉ番目の箇条書き情報群の各項目の順序を逆転させる処理は、例えば、５項目の箇条書き情報群である場合、旧５番目の項目が新しい１番目の項目となり、旧４番目の項目が新しい２番目の項目となり、３番目の項目は変わらず、旧２番目の項目が新しい４番目の項目となり、旧１番目の項目が新しい５番目の項目となる。かかる処理は、公知のテキスト処理であるので詳細な説明を省略する。

（ステップＳ４１０８）順序逆転部４０１０３は、文章群中のｉ番目の箇条書き情報群を、ステップＳ４１０７で得た新しいｉ番目の箇条書き情報群に書き換える。

（ステップＳ４１０９）条件判断部４０１０２は、カウンタｉを１、インクリメントする。

次に、ステップＳ４１０１の、１以上の箇条書き情報群を抽出する処理について、図４２フローチャートを用いて説明する。

（ステップＳ４２０１）箇条書取得部４０１０１は、カウンタｉに１を代入する。

（ステップＳ４２０２）箇条書取得部４０１０１は、文章群中にｉ行目が存在するか否かを判断する。ｉ行目が存在すればステップＳ４２０３に行き、ｉ行目が存在しなければ上位処理にリターンする。

（ステップＳ４２０３）箇条書取得部４０１０１は、文章群中のｉ行目を読み出す。

（ステップＳ４２０４）箇条書取得部４０１０１は、カウンタｊに１を代入する。

（ステップＳ４２０５）箇条書取得部４０１０１は、ｊ番目の箇条書きの開始情報（例えば、<ul>や\begin{itemize}など）が存在するか否かを判断する。なお、箇条書取得部４０１０１は、箇条書きの開始情報、箇条書きの終了情報を予め保持している。ｊ番目の箇条書きの開始情報が存在すればステップＳ４２０６に行き、存在しなければステップＳ４２１６に行く。

（ステップＳ４２０６）箇条書取得部４０１０１は、文章群中のｉ行目が、ｊ番目の箇条書きの開始情報に合致するか否かを判断する。合致すればステップＳ４２０７に行き、合致しなければステップＳ４２１５に行く。

（ステップＳ４２０７）箇条書取得部４０１０１は、カウンタｋに「ｉ＋１」を代入する。

（ステップＳ４２０８）箇条書取得部４０１０１は、文章群中にｋ行目が存在するか否かを判断する。ｋ行目が存在すればステップＳ４２０９に行き、ｋ行目が存在しなければ上位処理にリターンする。

（ステップＳ４２０９）箇条書取得部４０１０１は、文章群中のｋ行目を読み出す。

（ステップＳ４２１０）箇条書取得部４０１０１は、ｊ番目の箇条書きの終了情報を取得する。

（ステップＳ４２１１）箇条書取得部４０１０１は、文章群中のｋ行目が、ｊ番目の箇条書きの終了情報に合致するか否かを判断する。合致すればステップＳ４２１２に行き、合致しなければステップＳ４２１４に行く。

（ステップＳ４２１２）箇条書取得部４０１０１は、文章群中のｉ行目からｋ行目までを箇条書き情報群として取得し、メモリ上に追記する。

（ステップＳ４２１３）箇条書取得部４０１０１は、カウンタｉに「ｋ＋１」を代入する。ステップＳ４２０２に戻る。

（ステップＳ４２１４）箇条書取得部４０１０１は、カウンタｋを１、インクリメントする。ステップＳ４２０８に戻る。

（ステップＳ４２１５）箇条書取得部４０１０１は、カウンタｊを１、インクリメントする。ステップＳ４２０５に戻る。

（ステップＳ４２１６）箇条書取得部４０１０１は、カウンタｉを１、インクリメントする。ステップＳ４２０２に戻る。

なお、図４２のフローチャートにおいて、箇条書きの開始情報や、各項目の情報や、終了情報は、１行に記載されている、とした。しかし、箇条書きの開始情報や、各項目の情報や、終了情報は、複数行に渡っても良いし、１行に、他の情報が記載されていても良い。かかる場合、図４２のフローチャートにおける行とは、情報の集合、であるとする。また、箇条書きの開始情報や、各項目の情報や、終了情報は、複数行に渡っている場合など、図４２のフローチャートの処理の前に、文章群を整形し、開始情報や、各項目の情報や、終了情報を１行ずつとしても良い。

以下、本実施の形態における情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図１である。

本具体例において、箇条書き情報群を取得し、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件を判定し、当該条件に合致する箇条書き情報群の項目記載を逆にする態様について説明する。また、本具体例において、対象となる文章は、ＨＴＭＬファイルである、とする。

今、ユーザは、情報処理装置４０１にインストールされているソフトウェアであり、コンピュータを指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部１１０８として機能させるためのソフトウェアであるＷｅｂブラウザを操作し、情報処理装置４０１の文章群受信部１１０３は、一のサーバ装置１２から、図４３に示す文章群を受信した、とする。

次に、文章群受付部１１０４は、文章群受信部１１０３が受信した図４３の文書群を受け付ける。

そして、箇条書取得部４０１０１は、箇条書きの開始情報「<UL>」と終了情報「</UL>」により、開始情報と終了情報を含み、それらに挟まれた各項目の情報を含む箇条書き情報群（図４４）を取得する。

次に、条件判断部４０１０２は、条件を示す情報「箇条書きの情報群を構成する全項目の中に、日付の情報（「年」「月」「日」のうちのいずれかを含むか、「数字列/数字列/数字列」という表記を含むか、「数字列/数字列」という表記を含むか）を含み、かつ、日付が昇順に並べられている」を読み出す。なお、条件を示す情報は、通常、正規表現で記載され、条件判断部４０１０２は、当該正規表現に合致するか否かの判断を行う。

そして、条件判断部４０１０２は、図４４の箇条書き情報群の各項目のそれぞれに「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」という「年」「月」を含む文字列を有することを検知する。

次に、条件判断部４０１０２は、「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」が昇順に並べられているか否かを判断する。ここで、各項目の日付を示す情報（「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」）が昇順に並べられているので、条件判断部４０１０２は、条件に合致する、と判断する。

次に、順序逆転部４０１０３は、箇条書き情報群の各項目の順序を逆転させて、新しい箇条書き情報群を取得し、メモリ上に配置する。つまり、順序逆転部４０１０３は、図４４の箇条書き情報群の各項目の記載順序を逆転し、図４５の箇条書き情報群を得る。そして、順序逆転部４０１０３は、箇条書き情報群を新しい情報に上書きし、図４６の文章群を得る。

次に、文章群引渡部１１０７は、図４６の文章群を受け付け、出力部１１０８に渡す。出力部１１０８は、図４６の文章群（ＨＴＭＬファイル）を解釈、実行し、図４７に示すホームページを画面に表示する。

以上、本実施の形態によれば、文章群が有する箇条書きの情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む箇条書きの情報群の各項目を並べて表示してくれる。

なお、本実施の形態において、条件を判断せずに、すべての箇条書き情報群の各項目の順序を逆転させても良い。かかる場合、条件判断部４０１０２は不要となる。

また、本実施の形態によれば、ユーザが日付の新しい順、古い順のどちらで閲覧したいかを指定することができれば、さらに好適である。例えば、箇条書きの情報群の各項目が日付の情報を含む場合に、ユーザが日付の新しい順となるように指定したとすれば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件が選択される。一方、ユーザが日付の古い順となるように指定したとすれば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が降順に並べられている」という条件が選択される。

さらに本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム、である。

また、上記プログラムは、コンピュータを、前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部としてさらに機能させ、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得するものとして機能させるためのプログラム、であることは好適である。
（実施の形態６）

本実施の形態において、文章群中の表形式で記載された箇所について、列記するレコードの順序を逆転させるテキスト処理を行う情報処理装置等について説明する。また、特定の条件に合致する場合のみ、レコードの順序を逆転させるテキスト処理を行う情報処理装置等についても説明する。

図４８は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置４８１と、1以上のサーバ装置１２を具備する。

情報処理装置４８１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、表情報取得部４８１０１、条件判断部４８１０２、順序逆転部４８１０３、文章群引渡部１１０７、出力部１１０８を具備する。

表情報取得部４８１０１は、受け付けた文章群中の、表の情報群を識別し、取得する。表情報取得部４８１０１は、表の情報群を識別するための情報である表識別情報を保持しており、当該表識別情報を用いて、文章群を検索し、表の情報群を識別し、取得する。文章群がＨＴＭＬ文章である場合、表識別情報は、<table>と</table>の組の情報などである。また、文章群がＴｅｘ文章である場合、表識別情報は、\begin{tabular}と\end{enumerate}の組の情報である。また、文章群が、いわゆるワープロで作成されたファイルである場合、表識別情報は、表の罫線の開始と、次行が罫線でない罫線の組である。表識別情報は、通常、表の情報群の開始を示す情報である表識別開始情報（例えば、<table>、\begin{tabular}など）と、表の情報群の終了を示す情報である表識別終了情報（例えば、</table>、\end{tabular}など）を含む。表情報取得部４８１０１は、通常、ＭＰＵやメモリ等から実現され得る。表情報取得部４８１０１の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

条件判断部４８１０２は、表情報取得部４８１０１が取得した表の情報群が、所定の条件に合致するか否かを判断する。所定の条件とは、例えば、「表の情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」など、である。条件判断部４８１０２は、通常、ＭＰＵやメモリ等から実現され得る。条件判断部４０１０２の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

順序逆転部４８１０３は、表情報取得部４８１０１が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する。順序逆転部４８１０３は、条件判断部４８１０２における判断結果が、条件に合致するとの判断の場合のみ、表情報取得部４８１０１が取得した表の情報群を、レコードの順序を逆にして表の情報群を取得する、ことは好適である。なお、順序逆転部４８１０３は、条件判断部４８１０３２の判断結果によらずに、常に、表情報取得部４８１０１が取得した表の情報群を、項目（レコード）の順序を逆にして表の情報群を取得しても良い。順序逆転部４８１０３は、表の情報群の項目を逆転させた文章群を取得し、文章群引渡部１１０７に渡す。順序逆転部４８１０３は、通常、ＭＰＵやメモリ等から実現され得る。順序逆転部４８１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置４５１の動作について図４９、図５０のフローチャートを用いて説明する。図４９のフローチャートにおいて、図３のフローチャートと同様のステップについて、説明を省略する。

（ステップＳ４９０１）表情報取得部４８１０１は、文章群から１以上の表の情報群を抽出する。１以上の表の情報群を抽出する処理について、図５０フローチャートを用いて説明する。

（ステップＳ４９０２）条件判断部４８１０２は、条件を示す情報を読み出す。条件を示す情報とは、表の情報群が、所定の条件に合致するか否かを判断するための情報であり、予め条件判断部４８１０２が保持している、とする。

（ステップＳ４９０３）条件判断部４８１０２は、カウンタｉに１を代入する。

（ステップＳ４９０４）条件判断部４８１０２は、ｉ番目の表の情報群が存在するか否かを判断する。ｉ番目の表の情報群が存在すればステップＳ４９０５に行き、ｉ番目の表の情報群が存在しなければステップＳ３１１に行く。

（ステップＳ４９０５）条件判断部４８１０２は、ｉ番目の表の情報群が、ステップＳ４９０２で読み出した条件に合致するか否かを判断する。

（ステップＳ４９０６）ステップＳ４９０５における判断が、条件に合致するとの判断の場合はステップＳ４９０６に行き、条件に合致しないとの判断の場合はステップＳ４９０９に行く。

（ステップＳ４９０７）順序逆転部４０１０３は、ｉ番目の表の情報群の各項目の順序を逆転させて、新しいｉ番目の表の情報群を取得し、メモリ上に配置する。なお、ｉ番目の表の情報群の各項目の順序を逆転させる処理は、例えば、５レコード目の表の情報群である場合、旧５番目のレコードが新しい１番目のレコードとなり、旧４番目のレコードが新しい２番目のレコードとなり、３番目のレコードは変わらず、旧２番目のレコードが新しい４番目のレコードとなり、旧１番目のレコードが新しい５番目のレコードとなる。かかる処理は、公知のテキスト処理であるので詳細な説明を省略する。

（ステップＳ４９０８）順序逆転部４０１０３は、文章群中のｉ番目の表の情報群を、ステップＳ４９０７で得た新しいｉ番目の表の情報群に書き換える。

（ステップＳ４９０９）条件判断部４８１０２は、カウンタｉを１、インクリメントする。

次に、ステップＳ４９０１の、１以上の表の情報群を抽出する処理について、図５０のフローチャートを用いて説明する。

（ステップＳ５００１）表情報取得部４８１０１は、カウンタｉに１を代入する。

（ステップＳ５００２）表情報取得部４８１０１は、文章群中にｉ行目が存在するか否かを判断する。ｉ行目が存在すればステップＳ５００３に行き、ｉ行目が存在しなければ上位処理にリターンする。

（ステップＳ５００３）表情報取得部４８１０１は、文章群中のｉ行目を読み出す。

（ステップＳ５００４）表情報取得部４８１０１は、カウンタｊに１を代入する。

（ステップＳ５００５）表情報取得部４８１０１は、ｊ番目の表識別開始情報（例えば、<table>、\begin{tabular}など）が存在するか否かを判断する。なお、表情報取得部４８１０１は、表識別開始情報、表識別終了情報を予め保持している。ｊ番目の表識別開始情報が存在すればステップＳ５００６に行き、存在しなければステップＳ５０１６に行く。

（ステップＳ５００６）表情報取得部４８１０１は、文章群中のｉ行目が、ｊ番目の表識別開始情報に合致するか否かを判断する。合致すればステップＳ５００７に行き、合致しなければステップＳ５０１５に行く。

（ステップＳ５００７）表情報取得部４８１０１は、カウンタｋに「ｉ＋１」を代入する。

（ステップＳ５００８）表情報取得部４８１０１は、文章群中にｋ行目が存在するか否かを判断する。ｋ行目が存在すればステップＳ５００９に行き、ｋ行目が存在しなければ上位処理にリターンする。

（ステップＳ５００９）表情報取得部４８１０１は、文章群中のｋ行目を読み出す。

（ステップＳ５０１０）表情報取得部４８１０１は、ｊ番目の表識別終了情報（例えば、</table>、\end{tabular}など）を取得する。

（ステップＳ５０１１）表情報取得部４８１０１は、文章群中のｋ行目が、ｊ番目の表識別終了情報に合致するか否かを判断する。合致すればステップＳ５０１２に行き、合致しなければステップＳ５０１４に行く。

（ステップＳ５０１２）表情報取得部４８１０１は、文章群中のｉ行目からｋ行目までを表の情報群として取得し、メモリ上に追記する。

（ステップＳ５０１３）表情報取得部４８１０１は、カウンタｉに「ｋ＋１」を代入する。ステップＳ５００２に戻る。

（ステップＳ５０１４）表情報取得部４８１０１は、カウンタｋを１、インクリメントする。ステップＳ５００８に戻る。

（ステップＳ５０１５）表情報取得部４８１０１は、カウンタｊを１、インクリメントする。ステップＳ５００５に戻る。

（ステップＳ５０１６）表情報取得部４８１０１は、カウンタｉを１、インクリメントする。ステップＳ５００２に戻る。

なお、図５０のフローチャートにおいて、表識別開始情報や、各レコードの情報や、終了情報は、１行に記載されている、とした。しかし、表識別開始情報や、各レコードの情報や、終了情報は、複数行に渡っても良いし、１行に、他の情報が記載されていても良い。かかる場合、図５０のフローチャートにおける行とは、情報の集合、であるとする。また、表識別開始情報や、各レコードの情報や、終了情報は、複数行に渡っている場合など、図５０のフローチャートの処理の前に、文章群を整形し、開始情報や、各レコードの情報や、終了情報を１行ずつとしても良い。

本具体例において、表の情報群を取得し、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が降順に並べられている（日付の新しい順にレコードが並べられている）」という条件を判定し、当該条件に合致する表の情報群のレコード記載を逆にする態様について説明する。また、本具体例において、対象となる文章は、ＨＴＭＬファイルである、とする。

今、ユーザは、情報処理装置４８１にインストールされているソフトウェアであり、コンピュータを指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部１１０８として機能させるためのソフトウェアであるＷｅｂブラウザを操作し、情報処理装置４８１の文章群受信部１１０３は、一のサーバ装置１２から、図５１に示す文章群を受信した、とする。

次に、文章群受付部１１０４は、文章群受信部１１０３が受信した図５１の文書群を受け付ける。

そして、表情報取得部４８１０１は、表識別開始情報「<table>」と表識別終了情報「</table>」により、表識別開始情報と表識別終了情報を含み、それらに挟まれた各レコードの情報を含む表の情報群（図５２）を取得する。なお、表識別開始情報を含む行とは、「<table」と「>」を含む行として、表情報取得部４８１０１は動作する、とする。かかる処理は、ＨＴＭＬパーサの処理であり、公知技術であるので、詳細な説明を省略する。

次に、条件判断部４０１０２は、条件を示す情報「表の情報群を構成する全レコードの中に、日付の情報（「年」「月」「日」のうちのいずれかを含むか、「数字列/数字列/数字列」という表記を含むか、「数字列/数字列」という表記を含むか）を含み、かつ、日付が降順に並べられている（日付の新しい順にレコードが並べられている）」を読み出す。なお、条件を示す情報は、通常、正規表現で記載され、条件判断部４０１０２は、当該正規表現に合致するか否かの判断を行う。

そして、条件判断部４８１０２は、図５２の表の情報群の各レコード（<tr>と</tr>で挟まれた情報）のそれぞれに「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」という「年」「月」「日」のいずれかを含む文字列を有することを検知する。また、条件判断部４８１０２は、好ましくは、各文字列は、同一の列に存在することを検知する。ここでは、条件判断部４８１０２は、日付を示す文字列が、いずれも、表のレコード内の最初の属性値（最初の<td>の値）として記述されていることを検出する。

次に、条件判断部４８１０２は、「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」が降順に並べられているか否かを判断する。ここで、各レコードの日付を示す情報（「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」）が降順に並べられているので、条件判断部４８１０２は、条件に合致する、と判断する。条件判断部４８１０２は、例えば、日付を示す情報（「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」）から、それぞれ、「2003」「1997」「1986,1996」「1986」を取得し、数字が降順になっていることを検知する。

次に、順序逆転部４８１０３は、表の情報群の各レコードの順序を逆転させて、新しい表の情報群を取得し、メモリ上に配置する。つまり、順序逆転部４８１０３は、図５２の表の情報群の各レコードの記載順序を逆転し、図５３の表の情報群を得る。そして、順序逆転部４８１０３は、表の情報群を新しい情報に上書きし、図５４の文章群を得る。

次に、文章群引渡部１１０７は、図５４の文章群を受け付け、出力部１１０８に渡す。出力部１１０８は、図５４の文章群（ＨＴＭＬファイル）を解釈、実行し、図５５に示すホームページを画面に表示する。

以上、本実施の形態によれば、文章群が有する表の情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む表の情報群の各レコードを並べて表示してくれる。

なお、本実施の形態において、条件を判断せずに、すべての表の情報群の各レコードの順序を逆転させても良い。かかる場合、条件判断部４８１０２は不要となる。

また、本実施の形態によれば、ユーザが日付の新しい順、古い順のどちらで閲覧したいかを指定することができれば、さらに好適である。例えば、表の情報群の各項目が日付の情報を含む場合に、ユーザが日付の新しい順となるように指定したとすれば、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件が選択される。一方、ユーザが日付の古い順となるように指定したとすれば、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が降順に並べられている」という条件が選択される。

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム、である。

また、上記プログラムは、コンピュータを、前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部としてさらに機能させ、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得するように機能させるためのプログラム、であることは好適である。
（実施の形態７）

本実施の形態において、文章群中の人名や地名などの用語（以下、装飾対象用語、という。）に対して、出現頻度に応じて、態様を変えて装飾するようなテキスト処理を行う情報処理装置等についても説明する。ここで、装飾とは、文字列の属性（色やサイズやフォントや背景色など）や、付属文字や図の付加など、文字を視覚的に他の文字と区別できるようにする処理を言う。

図５６は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置５６１と、1以上のサーバ装置１２を具備する。

情報処理装置５６１は、指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、文章群受付部１１０４、装飾対象用語格納部５６１０１、出現頻度別装飾情報格納部５６１０２、装飾対象用語取得部５６１０３、出現頻度情報取得部５６１０４、装飾情報取得部５６１０５、装飾対象用語変更部５６１０６、文章群引渡部１１０７、出力部１１０８を具備する。

装飾対象用語格納部５６１０１は、装飾の対象の用語である装飾対象用語を1以上格納している。装飾対象用語は、例えば、人名や地名などである。装飾対象用語は、例えば、いわゆる電子化された人名辞書や、電子化された地名辞書である。装飾対象用語格納部５６１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

出現頻度別装飾情報格納部５６１０２は、装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している。出現頻度情報とは、例えば、検索した１以上のファイルや情報群における、出現回数の情報（例えば、１２８回など）、出現確率の情報（例えば、全単語数のうちの出現回数であり、５３／２９８７２６など）、出現回数の範囲を有する情報（例えば、１回から９９回、など）、出現確率の範囲を有する情報（例えば、１／１００００から２／１００００、など）などである。装飾情報とは、例えば、文字属性（文字色、フォント、サイズ、背景色、下線など）や付属文字の付加に関する情報（例えば、「文字列の直前に「＊」を挿入する」や、「文字列を括弧［］で囲む」などであり、複数の装飾についての情報（例えば、「文字色を赤にし、かつ、「文字列の直前に「＊」を挿入する」」など）が組み合わされていても良い。出現頻度別装飾情報格納部５６１０２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

装飾対象用語取得部５６１０３は、受け付けた文章群から、装飾対象用語格納部５６１０１に格納されている装飾対象用語を取得する。なお、装飾対象用語格納部５６１０１は、情報処理装置の外部の装置に存在し、装飾対象用語取得部５６１０３は、当該外部の装置を検索することにより、装飾対象用語を取得しても良い。装飾対象用語取得部５６１０３は、通常、ＭＰＵやメモリ等から実現され得る。装飾対象用語取得部５６１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出現頻度情報取得部５６１０４は、装飾対象用語取得部５６１０３が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する。出現頻度情報取得部５６１０４は、通常、ＭＰＵやメモリ等から実現され得る。出現頻度情報取得部５６１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

装飾情報取得部５６１０５は、出現頻度情報取得部５６１０４が取得した出現頻度情報に対応する装飾情報を、出現頻度別装飾情報格納部５６１０２から取得する。装飾情報取得部５６１０５は、通常、ＭＰＵやメモリ等から実現され得る。装飾情報取得部５６１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

装飾対象用語変更部５６１０６は、装飾情報取得部５６１０５が取得した装飾情報を用いて、文章群中の装飾対象用語を装飾するように変更する。装飾対象用語変更部５６１０６は、通常、ＭＰＵやメモリ等から実現され得る。装飾対象用語変更部５６１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、情報処理装置５６１の動作について図５７のフローチャートを用いて説明する。図５７のフローチャートにおいて、図３のフローチャートと同様のステップについて説明を省略する。

（ステップＳ５７０１）装飾対象用語取得部５６１０３は、カウンタｉに１を代入する。

（ステップＳ５７０２）装飾対象用語取得部５６１０３は、装飾対象用語格納部５６１０１に、ｉ番目の装飾対象用語が存在するか否かを判断する。ｉ番目の装飾対象用語が存在すればステップＳ５７０３に行き、ｉ番目の装飾対象用語が存在しなければステップＳ３１１に行く。

（ステップＳ５７０３）装飾対象用語取得部５６１０３は、装飾対象用語格納部５６１０１から、ｉ番目の装飾対象用語を読み出す。

（ステップＳ５７０４）装飾対象用語変更部５６１０６は、ｉ番目の装飾対象用語をキーとして、ステップＳ３０４で受け付けた文章群を検索し、ｉ番目の装飾対象用語が、文章群中に存在する位置の情報（例えば、文章群の先頭からのオフセットや、メモリ上のアドレスを示すポインタなど）を取得する。なお、ここで、文章群中にｉ番目の装飾対象用語が存在しない場合、ｉ番目の装飾対象用語が文章群中に存在する位置情報は取得されない。文章群中にｉ番目の装飾対象用語が２以上存在する場合、位置情報は２以上取得される。

（ステップＳ５７０５）出現頻度情報取得部５６１０４は、ステップＳ５７０４で１以上の位置情報が取得されたか否か（文章群中にｉ番目の装飾対象用語が存在するか否か）を判断する。文章群中にｉ番目の装飾対象用語が存在すればステップＳ５７０６に行き、文章群中にｉ番目の装飾対象用語が存在しなければステップＳ５７１３に行く。

（ステップＳ５７０６）出現頻度情報取得部５６１０４は、ｉ番目の装飾対象用語をキーとして検索対象を検索する。検索対象とは、出現頻度情報を取得するための元になる情報群であり、例えば、文章群や、１以上の外部装置のファイル群（例えば、Ｗｅｂ上の１以上のサーバの多数のホームページなど）や、情報処理装置５６１内の１以上のファイル群などである。

（ステップＳ５７０７）出現頻度情報取得部５６１０４は、ステップＳ５７０６における検索結果から、ｉ番目の装飾対象用語の出現頻度情報を構成する。出現頻度情報取得部５６１０４は、例えば、ステップＳ５７０６における検索結果から、ｉ番目の装飾対象用語の出現回数や、出現ファイル数や、検索対象の全単語数などを取得する。そして、出現頻度情報取得部５６１０４は、出現回数や、出現ファイル数をそのまま出現頻度情報としても良いし、「出現確率＝出現回数／全単語数」を算出しても良い。

（ステップＳ５７０８）装飾情報取得部５６１０５は、ステップＳ５７０７で取得された出現頻度情報を用いて、当該出現頻度情報に対応する装飾情報を、出現頻度別装飾情報格納部５６１０２から読み出す。

（ステップＳ５７０９）装飾対象用語変更部５６１０６は、カウンタｊに１を代入する。

（ステップＳ５７１０）装飾対象用語変更部５６１０６は、ステップＳ５７０４で取得した情報から、文章群中に、ｊ番目の装飾対象用語が存在するか否かを判断する。文章群中にｊ番目の装飾対象用語が存在すればステップＳ５７１１に行き、ｊ番目の装飾対象用語が存在しなければステップＳ５７１３に行く。

（ステップＳ５７１１）装飾対象用語変更部５６１０６は、文章群中のｊ番目の装飾対象用語に対して、ステップＳ５７０８で取得した装飾情報を用いて、装飾をし、ｊ番目の装飾対象用語を変更する。

（ステップＳ５７１２）装飾対象用語変更部５６１０６は、カウンタｊを１、インクリメントする。ステップＳ５７１０に戻る。

（ステップＳ５７１３）装飾対象用語取得部５６１０３は、カウンタｉを１、インクリメントする。ステップＳ５７０２に戻る。

今、情報処理装置５６１の装飾対象用語格納部５６１０１は、図５８に示す装飾対象用語管理表を格納している。装飾対象用語管理表は、地名や名勝などの情報を管理している。

また、出現頻度別装飾情報格納部５６１０２は、図５９に示す出現頻度別装飾情報管理表を格納している。出現頻度別装飾情報管理表は、「出現頻度情報」と「装飾情報」を対にして格納している。

かかる状況において、ユーザは、情報処理装置５６１にインストールされているソフトウェアであり、コンピュータを指示受付部１１０１、指示送信部１１０２、文章群受信部１１０３、および出力部１１０８として機能させるためのソフトウェアであるＷｅｂブラウザを操作し、情報処理装置５６１の文章群受信部１１０３は、一のサーバ装置１２から、図５７に示す文章群を受信した、とする。かかる文章群は、フラットなテキストデータでも良いし、ＨＴＭＬやＸＭＬなどのマークアップ言語等で記述されていても良い。

次に、文章群受付部１１０４は、文章群受信部１１０３が受信した図６０の文書群を受け付ける。

次に、装飾対象用語取得部５６１０３は、１番目の装飾対象用語「大阪」を装飾対象用語格納部５６１０１から読み出す。

そして、装飾対象用語変更部５６１０６は、１番目の装飾対象用語「大阪」をキーとして、図６０の文章群を検索し、１番目の装飾対象用語「大阪」が、文章群中に存在する位置の情報（文章群の先頭からのオフセット）「offset1」を取得する。なお、文章群から文字列「大阪」に一致するところのオフセットを取得する技術は公知技術である。

次に、出現頻度情報取得部５６１０４は、上記の処理で、位置情報が取得されたか否かを判断する。ここで、一つオフセット「offset1」が取得されたので、次の処理に進む、つまり、出現頻度情報取得部５６１０４は、１番目の装飾対象用語「大阪」をキーとして検索対象を検索する。検索対象は、ここでは、多数のサーバ装置１２に格納されている。また、サーバ装置１２は、Ｗｅｂ上のサーバ装置であり、検索対象は、多数の、いわゆるホームページである、とする。検索対象は、出現頻度情報を取得するための元になる情報群であり、例えば、文章群や、１以上の外部装置のファイル群（例えば、Ｗｅｂ上の１以上のサーバの多数のホームページなど）や、情報処理装置５６１内の１以上のファイル群などである。

そして、出現頻度情報取得部５６１０４は、例えば、装飾対象用語「大阪」の出現回数「８９１回」を得た、とする。そして、出現頻度情報取得部５６１０４は、検索結果から、ｉ番目の装飾対象用語の出現頻度情報「８９１」を構成する。つまり、ここでは、出現頻度情報は出現回数である。

次に、装飾情報取得部５６１０５は、取得された出現頻度情報「８９１」を用いて、当該出現頻度情報に対応する装飾情報「下線，背景色＝赤」を、図５９の出現頻度別装飾情報管理表から取得し、メモリ上に配置する。なお、「下線，背景色＝赤」は、ＨＴＭＬ文書にそのまま挿入できる「underline,background:red」等でも良いことは言うまでもない。

次に、装飾対象用語変更部５６１０６は、文章群中の１番目の装飾対象用語「大阪」に対して、取得された装飾情報「下線，背景色＝赤」を用いて、装飾をし、文章群中の「offset1」の位置の装飾対象用語「大阪」を変更し、下線が引かれ、背景色が赤色になるように、文字属性を変更する。なお、文字属性を変更（設定）する技術は公知技術である。

そして、同様に、図５８の装飾対象用語「京都」等も、「大阪」と同様の処理を行う。そして、出現頻度情報取得部５６１０４は、各装飾対象用語に対して、図６１に示す出現頻度情報を取得した、とする。

そして、装飾対象用語変更部５６１０６は、文章群中の各装飾対象用語に対して、出現頻度情報に対応する装飾情報に従って、装飾の処理（文字列の属性値の設定処理）を行う。

そして、文章群引渡部１１０７は、装飾対象用語変更部５６１０６がすべての装飾対象用語に対する装飾処理を完了した後、新しい文章群を受け付け、出力部１１０８に渡す。

次に、出力部１１０８は、渡された文章群を、図６２に示すようにディスプレイに表示する。

以上、本実施の形態によれば、例えば、地名や人名などの用語（通常、ユーザが重要と考える用語）を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。

なお、本実施の形態によれば、装飾情報は複数種類存在したが、1種類でも良い。かかる場合、予め決められた閾値以上の出現頻度、または予め決められた閾値以下の出現頻度の用語であり、文章群中の装飾対象用語を、予め決められた態様に装飾することにより、ユーザが、文章を非常に読みやすくなる。

また、本実施の形態において、装飾対象用語は、上述した固有表現の抽出方法などを用いて、文章群から自動抽出しても良い。かかる場合、情報処理装置５６１は、装飾対象用語格納部５６１０１を具備しなくても良い。つまり、情報処理装置は、

さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得部と、前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得部と、前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。

また、図６３は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図６３は、このコンピュータシステム３４０の概観図であり、図６４は、コンピュータシステム３４０のブロック図である。

図６３において、コンピュータシステム３４０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３４１と、キーボード３４２と、マウス３４３と、モニタ３４４とを含む。

図６４において、コンピュータ３４１は、ＦＤドライブ３４１１、ＣＤ−ＲＯＭドライブ３４１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３４１３と、ＣＰＵ３４１３、ＣＤ−ＲＯＭドライブ３４１２及びＦＤドライブ３４１１に接続されたバス３４１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３４１５と、ＣＰＵ３４１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３４１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３４１７とを含む。ここでは、図示しないが、コンピュータ３４１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３４０に、上述した実施の形態の画像出力装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３５０１、またはＦＤ３５０２に記憶されて、ＣＤ−ＲＯＭドライブ３４１２またはＦＤドライブ３４１１に挿入され、さらにハードディスク３４１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３４１に送信され、ハードディスク３４１７に記憶されても良い。プログラムは実行の際にＲＡＭ３４１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３５０１、ＦＤ３５０２またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３４１に、上述した実施の形態の画像出力装置等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３４０がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかるプログラムは、例えば、効果的なプログラム開発ができる、という効果を有し、テキスト処理用のプログラム等として有用である。

実施の形態１における情報処理システムの概念図を示す図同情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同情報処理装置のブロック図同文字列抽出処理の動作について説明するフローチャート同文字列加工処理の動作について説明するフローチャート同強調表示の説明図同ツールバー表示の説明図同強調表示例の説明図同情報処理装置のブロック図同文字列抽出処理の動作について説明するフローチャート同文字列加工処理の動作について説明するフローチャート同請求項を有する特許書類の例を示す図同用語管理表を示す図同特許書類の表示例を示す図同情報処理装置のブロック図同文字列加工処理の動作について説明するフローチャート同抽出情報の一例を示す図同科学文書の文章群の例を示す図同表示色の定義を示す図実施の形態２における情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同文章群タイプ決定について説明するフローチャート同判断情報管理表を示す図同得点管理表を示す図同サポートベクトルマシン法のマージン最大化の概念を示す図同文章群教師データの例を示す図実施の形態３における情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同漢字読み仮名辞書を示す図同文章群の例を示す図同出力文章群の例を示す図同書籍情報辞書を示す図同文書群の例を示す図同出力文章群の例を示す図実施の形態４における情報処理システムのブロック図同改良動作について説明するフローチャート同出現頻度管理表を示す図同中間的な表を示す図実施の形態５における情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同箇条書き情報群の抽出処理について説明するフローチャート同文章群の例を示す図同箇条書き情報群を示す図同箇条書き情報群を示す図同文章群を示す図同画面表示例を示す図実施の形態６における情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同表の情報群の抽出処理について説明するフローチャート同文章群を示す図同表の情報群を示す図同表の情報群を示す図同文章群を示す図同画面表示例を示す図実施の形態７における情報処理システムのブロック図同情報処理装置の動作について説明するフローチャート同装飾対象用語管理表を示す図同出現頻度別装飾情報管理表を示す図同文章群を示す図同出現頻度情報を示す図同画面表示例を示す図同情報処理装置を実現するコンピュータの外観図同コンピュータシステムのブロック図

符号の説明

１１、２１１、２８１、３６１、４０１、４８１、５６１情報処理装置
１２サーバ装置
１１０１指示受付部
１１０２指示送信部
１１０３文章群受信部
１１０４文章群受付部
１１０５文字列抽出部
１１０６文字列加工部
１１０７文章群引渡部
１１０８、２１１０５出力部
１２０１文章群格納部
１２０２指示受信部
１２０３文章群取得部
１２０４文章群送信部
１１０５１タイトル抽出手段
１１０５２単語抽出手段
１１０５３格納手段
１１０５４文章群中単語抽出手段
１１０６１タイトル別強調表示属性格納手段
１１０６２強調表示属性付与手段
２１１０１第一文字列抽出部
２１１０２第二文字列抽出部
２１１０３文字列属性格納部
２１１０４文字列加工部
２１１０６判断情報格納部
２１１０７文章群タイプ決定部
２１１０８、３６１０２制御部
２８１０１変換用語情報格納部
２８１０２補足用語挿入部
２８１０３文章群引渡部
３６１０１出現頻度取得部
４０１０１箇条書取得部
４０１０２、４０１０２、４８１０２条件判断部
４０１０３、４０１０３、４８１０３順序逆転部
４８１０１表情報取得部
５６１０１装飾対象用語格納部
５６１０２出現頻度別装飾情報格納部
５６１０３装飾対象用語取得部
５６１０４出現頻度情報取得部
５６１０５装飾情報取得部
５６１０６装飾対象用語変更部
１１０５１２単語抽出手段
１１０５１４文章群中単語抽出手段
１１０５２１抽出情報格納手段
１１０５２４文章群中単語抽出手段
１１０６１２強調表示属性付与手段
１１０６２１強調表示属性格納手段
１１０６２２強調表示属性付与手段
２１１０７１文章群属性情報取得手段
２１１０７２タイプ情報決定手段
２８１０２１文字列抽出手段
２８１０２２文字列加工手段

Claims

コンピュータに、
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、
前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す文章群引渡ステップを実行させるためのプログラムであって、
前記文章群受付ステップと前記文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラム。
前記文章群は、
Ｗｅｂ上のホームページであり、
前記文章群受付ステップは、
Ｗｅｂブラウザが受信したＷｅｂ上のホームページを受け付け、
前記文章群引渡ステップは、
前記Ｗｅｂブラウザに出力文章群を渡す請求項１記載のプログラム。
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、
前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、
前記第一文字列抽出部または前記第二文字列抽出部に対応付けて、それぞれ文字列属性を格納している文字列属性格納部と、
前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工部と、
前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、
前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、
前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部をさらに具備する請求項３記載の情報処理装置。
前記判断情報格納部は、
文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データを２以上格納しており、
前記文章群タイプ決定部は、
前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、
前記判断情報格納部の２以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備する請求項４記載の情報処理装置。
用語と当該用語に対して補足する用語である補足用語の対である変換用語情報を１以上格納している変換用語情報格納部と、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、前記変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、
前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
前記変換用語情報は、
漢字列と漢字の読み仮名の対の情報である請求項６記載の情報処理装置。
前記変換用語情報は、
書籍名と書籍の属性を示す属性情報である請求項６記載の情報処理装置。
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、
前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部をさらに具備し、
前記出力部は、
前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置。
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、
一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部をさらに具備し、
前記出力部は、
前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置。
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、
前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、
元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置。
前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、
前記順序逆転部は、
前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する請求項１１記載の情報処理装置。
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、
前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、
元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置。
前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、
前記順序逆転部は、
前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する請求項１３記載の情報処理装置。
装飾の対象の用語である装飾対象用語を1以上格納している装飾対象用語格納部と、
前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している出現頻度別装飾情報格納部と、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群から、前記装飾対象用語格納部に格納されている装飾対象用語を取得する装飾対象用語取得部と、
前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、
前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、前記出現頻度別装飾情報格納部から取得する装飾情報取得部と、
前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、
前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
前記装飾対象用語は、
人名または地名である請求項１５記載の情報処理装置。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、
前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、
前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性に従った文字列に加工を行う文字列加工部と、
前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
コンピュータを、
文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、
前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、
前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部としてさらに機能させるための請求項１７記載のプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、
前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるためのプログラムであって、
コンピュータを、
前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部としてさらに機能させ、
前記出力部は、
前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるためのプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるためのプログラムであって、
コンピュータを、
一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部としてさらに機能させ、
前記出力部は、
前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるためのプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、
前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、
元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、
前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、
元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム。
コンピュータを、
1以上の文章を有する文章群を受け付ける文章群受付部と、
前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得部と、
前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、
前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得部と、
前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、
前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、
前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出ステップと、
前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出ステップと、
前記第一文字列抽出ステップまたは前記第二文字列抽出出ステップで、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出出ステップまたは前記第二文字列抽出出ステップに対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工ステップと、
前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を渡す文章群引渡ステップと、
前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。
文章群のタイプを判断するための情報である判断情報を記憶媒体から読み出し、当該判断情報用いて、前記文章群受付ステップで受け付けた文章群のタイプを決定する文章群タイプ決定ステップと、
前記文章群タイプ決定ステップで決定した文章群のタイプに対応した前記第一文字列抽出ステップまたは前記第二文字列抽出ステップの実行を指示する制御ステップをさらに具備する請求項２５記載の情報処理方法。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群に対して、記憶媒体に格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入ステップと、
前記補足用語挿入ステップで挿入した補足用語を含む出力文章群を渡す文章群引渡ステップと、
前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップで抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力ステップを具備する情報処理方法であって、
前記文字列抽出ステップで抽出した文字列を用いて、前記文章群または、外部の装置に格納されている１以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得ステップをさらに具備し、
前記出力ステップは、
前記出現頻度取得ステップで取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理方法。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出ステップと、
前記文字列抽出ステップで抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力ステップを具備する情報処理方法であって、
一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付ステップをさらに具備し、
前記出力ステップは、
前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理方法。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得ステップと、
前記箇条書取得ステップで取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転ステップと、
元の箇条書きの情報群に代えて、前記順序逆転ステップで取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力ステップを具備する情報処理方法。
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得ステップと、
前記表情報取得ステップで取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転ステップと、
元の表の情報群に代えて、前記順序逆転ステップで取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力ステップを具備する情報処理方法。
装飾の対象の用語である装飾対象用語を1以上格納している装飾対象用語格納部と、
前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している出現頻度別装飾情報格納部と、
1以上の文章を有する文章群を受け付ける文章群受付ステップと、
前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得ステップと、
前記装飾対象用語取得ステップで取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得ステップと、
前記出現頻度情報取得ステップで取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得ステップと、
前記装飾情報取得ステップで取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更ステップと、
前記装飾対象用語変更ステップで変更した装飾対象用語を含む出力文章群を渡す文章群引渡ステップと、
前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。