JP2008250651A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2008250651A
JP2008250651A JP2007090848A JP2007090848A JP2008250651A JP 2008250651 A JP2008250651 A JP 2008250651A JP 2007090848 A JP2007090848 A JP 2007090848A JP 2007090848 A JP2007090848 A JP 2007090848A JP 2008250651 A JP2008250651 A JP 2008250651A
Authority
JP
Japan
Prior art keywords
information
character string
unit
sentence group
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007090848A
Other languages
English (en)
Inventor
Maki Murata
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2007090848A priority Critical patent/JP2008250651A/ja
Publication of JP2008250651A publication Critical patent/JP2008250651A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】従来のテキスト処理プログラムにおいては、動作の高速性を維持しつつ、スパイラル開発を容易に実現できない、という課題があった。
【解決手段】コンピュータに、1以上の文章を有する文章群を受け付ける文章群受付ステップと、前記文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記加工した1以上の文字列を含む出力文章群を表示部に渡す出力文章群引渡ステップを実行させるためのプログラムであって、文章群受付ステップと出力文章群引渡ステップは、コンパイラ型言語で実現し、文字列抽出ステップと文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラムにより、動作の高速性を維持しつつ、スパイラル開発を容易に実現できる。
【選択図】図2

Description

本発明は、文章の集合等の情報に対して、テキスト処理を行う情報処理装置等に関するものである。
従来のテキスト処理を行うプログラムにおいて、通常、一のプログラム言語で実現されていた。ここでテキスト処理とは、例えば、所定の条件に合致する文字列を抽出し、当該文字列に対して強調表示を行ったり、書き換えを行ったりする処理である。
また、従来、探索に利用したキーワードなどが文書中のどこに存在するかを容易に認識でき、またキー操作を行わなくても文書ファイルの登録が可能な利便性の高い電子ファイリングシステムがあった(特許文献1参照)。
また、従来、文書の特徴や新情報のわかりやすい表示を行う情報処理装置があった。本装置は、文書データの差分として出力する対象の単位である抽出単位と文書データの差分を検出するために比較する領域の単位である検出領域を設定する抽出・検出領域設定手段と、情報を格納する格納手段と、抽出手段とを備え、前記抽出手段は、入力された文書データの現在の前記検出領域以外の領域から全ての前記抽出単位に相当するものを抽出して前記格納手段に格納し、現在の前記検出領域において、前記格納手段に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力することを、前記検出領域ごとに繰り返す(特許文献2参照)。
また、従来、入力されたデータ中で抽出領域の説明に該当する場所を容易に見つけることができる情報処理装置があった。本装置は、抽出の単位を設定する抽出単位設定手段と、強調表示する抽出表現を設定する抽出表現設定手段と、抽出領域の場所を設定する抽出領域設定手段と、情報を格納する格納手段と、抽出手段とを備え、前記抽出手段は、前記抽出領域より前記抽出の単位に相当するものを抽出し、そのうち、前記抽出表現に該当するものを前記格納手段に格納し、入力されたデータを左から調べて現在の前記抽出の単位に相当するものと同じものが、前記格納手段に格納されている場合は、それを強調表示するものである(特許文献3参照)。
特開平6−259485号公報(第1頁、第1図等) 特許第3682535号公報(第1頁、第1図等) 特開2004−280176号公報(第1頁、第1図等)
一方、例えば、所定の条件に合致する文字列を抽出し、当該文字列に対して強調表示を行ったり、書き換えを行ったりする処理を行うテキスト処理のプログラム開発において、処理対象の文章の入力処理と処理結果の文章の出力処理については、対象となる文章の種類やタイプなどにより、プログラムが変化しないことが好適である。入力処理と出力処理のプログラムが変更されるとなれば、プログラム開発者にとって、対象となる文章の種類やタイプなどにより、同様のプログラムの重複開発が必要であり、ユーザにとっても、ユーザインターフェイスが文章の種類やタイプなどにより異なり、使い勝手の悪いシステムになってしまう。つまり、入力処理部分と出力処理部分のソフトウェアは、ウォーターフォールモデルによる開発が好適であり、一度、完成したプログラムは変更しにくく、高速な実行ができるコンパイラ型のプログラム言語を用いた開発が好ましい。
また、テキスト処理部分のプログラムは、対象となる文章の種類やタイプなどにより、処理が異なる場合が多く、若干の修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト(デバッグや有効性の評価なども含む)を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが好適である。つまり、テキスト処理の部分プログラムは、多少の実行速度を犠牲にしても、トライ・アンド・エラーを容易に行えるインタプリタ型のプログラム言語を用いた開発が好ましい。なお、スパイラル開発手法とは、仕様が固まったところから開発し、何度か試行錯誤を繰り返して、チェック、および改善しながら、質の高いソフトウェアを開発できる、と言われている開発手法であり、いわゆる後戻りがないウオーターフォールモデルの開発手法と対比されて説明され得る。
しかし、テキスト処理等のテキスト処理を実現するプログラムのプログラム言語がすべて、コンパイラ型のプログラム言語であれば、テキスト処理部分の開発で、スパイラル開発が適用しにくい。また、テキスト処理等のテキスト処理を実現するプログラムのプログラム言語がすべて、インタプリタ型のプログラム言語であれば、全体の処理速度が、通常、遅くなる。
また、特許文献1から特許文献3において、複数のテキスト処理機能を有せず、ユーザが処理対象の文章群に応じて、一のテキスト処理機能を選択して、または、文章群の種類やタイプを認識し、自動的に一のテキスト処理機能を選択して、実行することができなかった。そのため、複数の種類の文章群に対して、適切なテキスト処理を行うことができなかった。
また、特許文献1から特許文献3において、箇条書きの項目を自動取得し、上下の順序を入れ替える、などの処理を行うことができなかった。
また、特許文献1から特許文献3において、表のレコードを自動取得し、上下のレコードの順序を入れ替える、などの処理を行うことができなかった。
また、特許文献1から特許文献3において、人名、地名を取得し、頻度情報を検索により取得し、頻度情報に応じて、人名、地名の文字属性を変えたり、付属文字を付与したりする、などの処理を行うことができなかった。
また、特許文献1から特許文献3において、所定の条件に合致した文字列を強調表示する機能を有するが、文字列の出現頻度を考慮せずに、所定の条件に合致した文字列を強調表示していたので、ユーザが強調表示をして欲しくない、一般的な用語も強調表示してしまい、真に強調表示して欲しい用語の強調表示の意義が少なくなる、という課題があった。
また、特許文献1から特許文献3において、所定の条件に合致した文字列を強調表示する機能を有するが、ユーザが強調表示をして欲しくない用語も強調表示してしまう、という課題があった。
本第一の発明のプログラムは、コンピュータに、1以上の文章を有する文章群を受け付ける文章群受付ステップと、前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す文章群引渡ステップを実行させるためのプログラムであって、前記文章群受付ステップと前記文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラムである。
かかる構成により、処理の高速性を担保しつつ、スパイラル開発が容易にできる。
また、本第二の発明のプログラムは、第一の発明に対して、前記文章群は、Web上のホームページであり、前記文章群受付ステップは、Webブラウザが受信したWeb上のホームページを受け付け、前記文章群引渡ステップは、前記Webブラウザに出力文章群を渡すプログラムである。
かかる構成により、処理の高速性を担保しつつ、スパイラル開発が容易にできる。
また、本第三の発明の情報処理装置は、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて、それぞれ文字列属性を格納している文字列属性格納部と、前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工部と、前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。
かかる構成により、ユーザの選択により、文章群タイプを決定し、文章タイプに応じた文章処理ができる。
また、本第四の発明の情報処理装置は、第三の発明に対して、文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部をさらに具備する情報処理装置である。
かかる構成により、自動的に、またはユーザの選択により、文章タイプを決定し、文章タイプに応じた文章処理ができる。
また、本第五の発明の情報処理装置は、第四の発明に対して、前記判断情報格納部は、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データを2以上格納しており、前記文章群タイプ決定部は、前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、前記判断情報格納部の2以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備する情報処理装置である。
かかる構成により、精度高く文章群タイプを自動決定できる。
また、本第六の発明の情報処理装置は、用語と当該用語に対して補足する用語である補足用語の対である変換用語情報を1以上格納している変換用語情報格納部と、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、前記変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。
かかる構成により、取得した文章群に対して、自動的に必要な情報の補足を行って、読みやすい、または有益な文章群を提供できる。
また、本第七の発明の情報処理装置は、第六の発明に対して、前記変換用語情報は、漢字列と漢字の読み仮名の対の情報である情報処理装置である。
かかる構成により、例えば、子供向けの文章群を自動的に作成できる。
また、本第八の発明の情報処理装置は、第六の発明に対して、前記変換用語情報は、書籍名と書籍の属性を示す属性情報である情報処理装置である。
かかる構成により、取得した文章群が有する書籍名に対して、自動的に書籍の属性を示す属性情報の補足を行って、読みやすい、または有益な文章群を提供できる。
また、本第九の発明の情報処理装置は、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部をさらに具備し、前記出力部は、前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置である。
かかる構成により、高出現頻度の用語を強調表示しないことにより、真に重要な用語のみ、強調表示できる。その結果、読みやすい文章群をユーザに提示できる。
また、本第十の発明の情報処理装置は、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部をさらに具備し、前記出力部は、前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置である。
かかる構成により、一度、強調表示された用語に対して、ユーザの指示により強調表示を停止できる。その結果、そのユーザにとって、真に読みやすい文章群をユーザに提示できる。
また、本第十一の発明の情報処理装置は、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置である。
かかる構成により、文章群が有する箇条書きの情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、ユーザの見やすい順に日付の情報を含む箇条書きの情報群の各項目を並べて表示してくれる。
また、本第十二の発明の情報処理装置は、第十一の発明に対して、前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する情報処理装置である。
かかる構成により、自動的にユーザが好む年代順に項目を並べて表示できる。
また、本第十三の発明の情報処理装置は、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置である。
かかる構成により、文章群が有する表の情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む表の情報群の各レコードを並べて表示してくれる。
また、本第十四の発明の情報処理装置は、第十三の発明に対して、前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する情報処理装置である。
かかる構成により、自動的にユーザが好む年代順に項目を並べて表示できる。
また、本第十五の発明の情報処理装置は、に対して、装飾の対象の用語である装飾対象用語を1以上格納している装飾対象用語格納部と、前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している出現頻度別装飾情報格納部と、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群から、前記装飾対象用語格納部に格納されている装飾対象用語を取得する装飾対象用語取得部と、前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、前記出現頻度別装飾情報格納部から取得する装飾情報取得部と、前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置である。
かかる構成により、通常、ユーザが重要と考える用語を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。
また、本第十六の発明の情報処理装置は、第十五の発明に対して、前記装飾対象用語は、人名または地名である情報処理装置である。
かかる構成により、地名や人名などの用語を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。
本発明によるテキスト処理のプログラムによれば、例えば、効果的なプログラム開発ができる。
以下、プログラム等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、テキスト処理を行うプログラムにおいて、コンパイラ型のプログラム言語による開発と、インタプリタ型のプログラム言語による開発を組み合わせた、テキスト処理用プログラムのハイブリッド型の開発方法について説明する。
まず、本プログラムが実装された情報処理装置を含む情報処理システムについて説明する。図1は、情報処理装置を含む情報処理システムの概念図である。情報処理システムは、情報処理装置11と、1以上のサーバ装置12を具備する。情報処理装置11は、ユーザが使用する情報端末であり、いわゆるパーソナルコンピュータ、ノートパソコン、PDA、携帯電話等、文章群を表示できる装置であれば良い。サーバ装置12は、文章群を格納しているサーバ装置であり、例えば、情報処理装置11からの指示により、文章群(例えば、HTMLやXML等で記述された、タグなどにより構造化された文章群であるホームページ)を情報処理装置11に送信する。情報処理装置11とサーバ装置12は、例えば、インターネット等の通信網により、相互に通信可能である。
図2は、情報処理システムのブロック図である。情報処理装置11は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107、出力部1108を具備する。
サーバ装置12は、文章群格納部1201、指示受信部1202、文章群取得部1203、文章群送信部1204を具備する。
指示受付部1101は、ユーザから、文章群の取得の指示などの各種指示やデータの入力を受け付ける。文章群とは、1以上の文章を有する情報である。一文章群は、通常、一ファイルであるが、データベールの一テーブルの情報などでも良い。つまり、文章群のデータ構造は問わない。文章群の取得の指示は、例えば、URLやサーバ装置12のIPアドレスなど、サーバ装置12と通信を行うための情報を含む。各種指示やデータの入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。指示受付部1101は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
指示送信部1102は、指示受付部1101が受け付けた文章群の取得の指示を、指示に対応したサーバ装置12に送信する。指示送信部1102は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
文章群受信部1103は、指示送信部1102が送信した指示に対応して、サーバ装置12から文章群を受信する。文章群受信部1103は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
文章群受付部1104は、文章群受信部1103が受信した文章群を受け付ける。この受け付けの処理は、例えば、文字列抽出部を実現するプログラムの関数の呼び出す処理でも良いし、予め決められた記憶領域に書き込まれた文章群を読み出す処理などでも良い。文章群受付部1104は、通常、MPUやメモリ等から実現され得る。文章群受付部1104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。文章群受付部1104の処理は、文章群の入力処理であり、「Visual C」「C言語」などのコンパイル型のプログラム言語で実現される。
文字列抽出部1105は、文章群受付部1104が受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する。ここで、文字列抽出部1105は、所定の条件を予め格納している、とする。所定の条件は、例えば、文字列そのものであったり、文字列を抽出するルールである。
また、文字列抽出部1105は、以下に示すような重要語を抽出しても良い。この重要語は、文字列加工部1106により加工される対象の文字列である。文字列抽出部1105は、文章群受付部1104が受け付けた文章群に現れる単語の中で、他の文書(他のサーバ装置が格納しているホームページなど)に現れない単語を重要語として抽出しても良い。また、文字列抽出部1105は、文章群受付部1104が受け付けた文章群を最初から順番にサーチし、初めて現れる単語を重要語として抽出しても良い。例えば、文章群が特許文書である場合、文字列抽出部1105は、重要語の抽出対象の請求項以外の請求項すべてからすべての単語を抽出し、抽出対象の請求項において他の請求項に現れない単語を特定し、重要語として抽出しても良い。また、例えば、文章群が特許文書である場合、文字列抽出部1105は、重要語の抽出対象の請求項よりも上の(請求項番号の若い)すべての請求項からすべての単語を取り出し、抽出対象の請求項において、当該抽出対象の請求項よりも上のすべての請求項にあらわれない単語を特定し、重要語として抽出しても良い。ここで、各請求項における重要語は、名詞や動詞などであることは好適である。ただし、あらかじめ指定した所定の単語は除く(例えば、「もの」「こと」などのあまり意味をなさない単語)ことは好適である。名詞や動詞などを取り出すには、形態素解析システムを利用することができる。なお、重要語として名詞だけを取り出すようにすることもできる。上記手法で特定した単語のうち名詞や動詞など(又は名詞だけ)を重要語とすることもできる。これにより、重要語が多くなりすぎるのを防ぐことができる。
文字列抽出部1105は、通常、MPUやメモリ等から実現され得る。文字列抽出部1105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。文字列抽出部1105の処理は、テキストのマッチング処理である。また、テキストのマッチング処理は、対象となる文章群の種類やタイプなどにより、その処理内容が異なる場合が多く、また、処理の効果の確認が必要である。つまり、文章群の種類やタイプなどにより、マッチングしたい文字列が異なる。従って、文字列抽出部1105の開発を行う場合に、若干のプログラムの修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト(デバッグや有効性の評価なども含む)を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが必要である。従って、文字列抽出部1105を実現するプログラムは、「perl」「awk」などのインタプリタ型言語で実現される。なお、文字列抽出部1105等のインタプリタ型言語で実現されたプログラムも、最終の処理(仕様)が決定した後、コンパイルされも良い。かかることにより、処理も高速になる。
文字列加工部1106は、文字列抽出部1105が抽出した1以上の各文字列に対して、予め決められた加工を行う。そして、文字列加工部1106は、加工した文字列を含む文章群を記憶媒体(メモリなど)に配置する。ここで、加工とは、文字列の属性を変更する処理や、文字列をキーとして辞書などを検索して、文字列と対になっている他の文字列(「文字列が漢字の場合、その読みのひらがな」「文字列が書名の場合、その書籍の著者名」「文字列が住所の場合、その場所の最寄り駅」など)を取得し、取得した他の文字列を元の文字列に隣接する態様で付加する処理などである。文字列の属性とは、文字列の色、フォント、サイズ、背景色などである。文字列の属性を変更することにより、例えば、その文字列が他の文字列と比較して、強調表示される。
また、文章群が特許文書である場合、加工とは、例えば、各請求項に出現する文字列(重要語)が明細書本文に出現したとき、その文字列の前部(後部でもよい)に請求項の番号を付与することである。これにより、請求項の数が多くなっても、どの請求項であるか容易に認識することができる。また、文字列抽出部1105が重要語を抽出した場合に、当該重要語と請求項番号を対応付けてメモリ上に保持しておき、文字列加工部1106は、請求項番号と付与する色の情報を対応付けて保持しており、文字列加工部1106は、重要語で特許明細書本文を検索し、請求項番号に対応させて(請求項の重要語も色付けする)、明細書本文に出現した重要語にそれぞれ異なる色付けを行う(色属性を書き込む)。これにより、色でどの請求項に対応するか容易に判別できる。また、文字列抽出部1105は、明細書本文に出現した重要語が、複数の請求項に重複して出現する場合、該重要語の前部(後部でもよい)に請求項の番号を重複して付与する。これにより、複数の請求項で出現したことを容易に認識することができる。
また、図示しない入力手段により、任意の請求項番号を指定すると、その請求項番号に該当する明細書本文に出現した重要語のみが色付け表示されても良い。この場合、複数の請求項の番号を指定することも可能である。また、図示しない入力手段により、任意の請求項番号を指定すると、その請求項番号に該当する明細書本文に出現した重要語のみが強調文字表示(色付け表示以外)される。この場合、強調文字表示はそのままで複数の請求項の番号を指定することも可能である。また、図示しない入力手段により、任意の請求項番号の指定を行う場合、順次ローテーションさせるようにできる(例えば、スペースキー操作で次々と請求項番号が移って(更新)行く)。さらに、図示しない入力手段により、任意の請求項番号を指定したとき、段落番号で区切られた範囲内において、請求番号を付与した(又は色付けした)重要語の範囲がある(所定)閾値を超えた場合、その段落内を全て色付け表示することができる。この閾値は、OFFも含めて設定変更が可能である。
なお、この閾値としては、出現した重要語の数、割合、密度(ある段落の重要語の数/ある段落の全単語の数)等とすることができる。また、段落番号で区切られた範囲内(段落単位)でなく、行単位、頁単位、一定の文字数単位等の規定範囲とすることもできる。そして、この密度が高いところを、自動で画面表示(スクロール)することもできる。
また、各請求項に該当する重要語の強調表示は、明細書本文のすみ付き括弧の「発明を実施するための最良の形態」又は「実施例」等の説明文中とすることができる。
さらに、(1)重要語として、名詞のみを取り出すようにする、(2)重要語として、ひらがなを取り出さないようにする、(3)重要語として、ひらがな何文字以下の単語は取り出さないようにする、(4)重要語として、何文字以下の単語は取り出さないようにする、といった処理を行うことは好適である。このように上記(1)〜(4)((1)〜(4)は単独でなく組み合わせることもできる)で取り出した、よりよい単語のみを使って強調表示を行うこともできる。
なお、上記では、特許の請求項と明細書の例について説明したが、複数の文書とその本文のように、特許以外の文書にも適用することができる。
文字列加工部1106は、通常、MPUやメモリ等から実現され得る。文字列加工部1106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。文字列加工部1106の処理は、テキスト処理である。また、テキスト処理は、対象となる文章群の種類やタイプなどにより、その処理内容が異なる場合が多く、また、処理の効果の確認が必要である。従って、文字列加工部1106の開発を行う場合に、若干のプログラムの修正をし、直ちにプログラムを実行させ、開発したプログラムが行うテキスト処理が、ユーザにとって有効か否かのテスト(デバッグや有効性の評価なども含む)を簡単に行う必要がある。つまり、テキスト処理部分のプログラム開発は、スパイラル開発手法により、トライ・アンド・エラーにより行うことが必要である。従って、文字列加工部1106を実現するプログラムは、「perl」「awk」などのインタプリタ型言語で実現される。
文章群引渡部1107は、文字列加工部1106が加工した1以上の文字列を含む出力文章群を、後述する出力部1108に渡す。文章群引渡部1107は、例えば、出力部1108を構成するプログラムを、文章群を引数にして、呼び出す。文章群引渡部1107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。文章群引渡部1107の処理は、文章群の出力処理であり、文章群の種類やタイプにより、変化するべきではない。例えば、文章群の種類やタイプにより、文章群の出力処理が異なるとすれば、対象となる文章の種類やタイプなどにより、同様のプログラムの重複開発が必要であり、ユーザにとっても、ユーザインターフェイスが文章の種類やタイプなどにより異なり、使い勝手の悪いシステムになってしまう。そこで、文章群引渡部1107を実現するプログラムは、「Visual C」「C言語」などのコンパイル型のプログラム言語で実現される。
出力部1108は、文章群引渡部1107から引き渡された文章群(加工済み)をディスプレイに表示する。出力部1108は、ディスプレイデバイスを含むと考えても含まないと考えても良い。出力部1108は、ディスプレイデバイスのドライバーソフトまたは、ディスプレイデバイスのドライバーソフトとディスプレイデバイス等で実現され得る。
なお、上記において、文章群は、Web上のホームページ(HTMLなどで記載されたファイル)であり、指示受付部1101、指示送信部1102、文章群受信部1103、および出力部1108を実現するソフトウェアは、いわゆるWebブラウザである、ことは好適である。
また、かかる場合、文章群受付部1104、文字列抽出部1105、文字列加工部1106、および文章群引渡部1107を実現するプログラムは、Webブラウザにツールバーとして組み込まれる、ことは好適である。そして、この場合、文章群受付部1104を実現する文章群受付ステップは、Webブラウザが受信したWeb上のホームページを受け付ける。また、文章群引渡部1107を実現する出力文章群引渡ステップは、Webブラウザに出力文章群を渡す。
次に、情報処理システムの動作について説明する。まず、情報処理装置11の動作について図3のフローチャートを用いて説明する。
(ステップS301)指示受付部1101は、文章群の取得指示を受け付けたか否かを判断する。文章群の取得指示を受け付ければステップS302に行き、文章群の取得指示を受け付けなければステップS301に戻る。なお、文章群の取得指示以外の指示を受け付けた場合は、図示しないが、情報処理装置11は、その指示に従った動作を行う。
(ステップS302)指示送信部1102は、ステップS301で受け付けた文章群の取得指示を、サーバ装置12に送信する。
(ステップS303)文章群受信部1103は、ステップS302における文章群の取得指示の送信に対応して、サーバ装置12から文章群を受信したか否かを判断する。文章群を受信すればステップS304に行き、文章群を受信しなければステップS303に戻る。
(ステップS304)文章群受付部1104は、ステップS303で受信した文章群を受け付ける。そして、文章群受付部1104は、文字列抽出部1105に文章群を渡す。
(ステップS305)文字列抽出部1105は、所定の条件に合致する1以上の文字列を、文章群から抽出する。文字列の抽出は、文章群中の文字列の開始位置および終了位置、または開始位置と文字列、または開始位置と文字列の長さの情報の抽出でも良い。文字列抽出部1105は、例えば、抽出する文字列を特定するルールや文字列を格納しており、当該ルールや文字列を読み出し、読み出したルールや文字列を用いて、文章群を走査し、1以上の文字列を抽出する。本ステップの具体例は後述する。
(ステップS306)文字列加工部1106は、カウンタiに1を代入する。
(ステップS307)文字列加工部1106は、ステップS305で抽出した文字列の中に、i番目の文字列が存在するか否かを判断する。i番目の文字列が存在すればステップS308に行き、i番目の文字列が存在しなければステップS311に行く。
(ステップS308)文字列加工部1106は、i番目の文字列を読み出し、当該文字列をキーとして文章群を検索し、マッチする1以上の文字列を取得し、当該1以上の各文字列に対して、予め決められた加工を行い、新しい文字列を取得する。
(ステップS309)文字列加工部1106は、ステップS307で取得した新しい文字列を、元のi番目の文字列に代えて、元のi番目の文字列の位置に挿入する。
(ステップS310)文字列加工部1106は、カウンタiを1,インクリメントする。ステップS307に戻る。
(ステップS311)文章群引渡部1107は、ステップS309の処理を1回以上、繰り返すことにより得られた、新しい文章群を、出力部1108に渡す。
(ステップS312)出力部1108は、ステップS311で渡された文章群を、ディスプレイに表示する。この表示は、プロジェクターによる投影も含む概念である。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、サーバ装置12の動作について説明する。サーバ装置12の指示受信部1202が文章群の取得指示を受信すれば、文章群取得部1203は、当該指示に対応する文章群を文章群格納部1201から読み出す。そして、文章群送信部1204は、読み出した文章群を情報処理装置11に送信する。
以下、本実施の形態における情報処理システムの具体的な動作について説明する。
(具体例1)
まず、情報処理装置11が、文章群の有するタイトルに含まれる用語を抽出し、当該抽出した用語であり、文章群に出現する用語に対して強調表示する処理を行う例について説明する。
図4は、本具体例における情報処理装置11のブロック図である。情報処理装置11は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107、出力部1108を具備する。また、文字列抽出部1105は、タイトル抽出手段11051、単語抽出手段11052、格納手段11053、文章群中単語抽出手段11054を具備する。文字列加工部1106は、タイトル別強調表示属性格納手段11061、強調表示属性付与手段11062を具備する。
指示受付部1101、指示送信部1102、文章群受信部1103、および出力部1108は、例えば、いわゆるWebブラウザである。
タイトル抽出手段11051は、文章群のタイトルとその階層を抽出する。文章群は、例えば、HTMLファイル(例えば、ホームページ)である場合、タイトル抽出手段11051は、HTMKファイル中のタイトルタグ<H1>や<H2>などを予め格納しており、当該格納しているタイトルタグで囲まれた(例えば、<H1>と</H1>で囲まれた)文を抽出する。また、HTMKファイル中のタイトルタグが階層化されている場合、その階層の情報(例えば、1段目を示す「1」や、2段目を示す「2」など)も取得する。
単語抽出手段11052は、タイトル抽出手段11051が抽出したタイトルの文(文字列)から、用語(例えば、重要語)を抽出してタイトルごとに格納手段11053に、少なくとも一時的に書き込む。単語抽出手段11052は、助詞などを除いた自立語や単語を抽出しても良い。また、単語抽出手段11052は、助詞などを除いた自立語を用語として抽出し、当該用語で、本文章群、または1以上の外部装置の1以上のファイルを検索し、一定回数以下の出現頻度の用語を重要語として抽出しても良い。さらに、タイトルを示す文から専門用語を抽出し(公知技術である)、当該専門用語を重要語としても良い。単語抽出手段11052は、例えば、「タイトル「H1」、重要語「HMM」」などの情報を格納手段11053に書き込む。
格納手段11053は、タイトルを識別する情報(例えば、「H1」「H2」などのタグ)と、対にして、抽出された用語を格納し得る。
文章群中単語抽出手段11054は、文章群の中から、格納手段11053の用語を抽出する。文章群中単語抽出手段11054は、まず、格納手段11053の用語を読み出し、当該用語をキーとして、文章群を走査し、本用語が存在する箇所を示す情報(例えば、文章の先頭からのオフセット)を取得し、当該用語と箇所を示す情報を対にして、一時的にメモリに書き込む。
タイトル別強調表示属性格納手段11061は、タイトルの階層毎に、どのような協調表示を行うかを示すタイトル別強調表示属性情報を格納している。タイトル別強調表示属性情報は、例えば、タイトルの階層を示すタグ(例えば、「H1」「H2」などのタグ)と、協調表示の属性値(例えば、<col=red>、<col=blue>、<font=bold>など)を対に有する情報である。また、協調表示の属性値は、他の文字と視覚的に区別できるように、文字の色やフォントやサイズや背景色や下線の有無やイタリック体にする、などの文字属性を示す情報である。
強調表示属性付与手段11062は、文章群中単語抽出手段11054が抽出した各用語に対して、対応するタイトルの階層の情報を取得し、当該タイトルの階層に対応するタイトル別強調表示属性情報を取得する。そして、強調表示属性付与手段11062は、文章群中単語抽出手段11054が抽出した各用語(文字列)の属性値として、取得したタイトル別強調表示属性情報を付与する。
タイトル抽出手段11051、単語抽出手段11052、文章群中単語抽出手段11054、強調表示属性付与手段11062は、通常、MPUやメモリ等から実現され得る。タイトル抽出手段11051等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは、インタプリタ型言語で実装され、記録媒体に記録されている。
格納手段11053、タイトル別強調表示属性格納手段11061は、ハードディスク等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。
以下、文字列抽出部1105が行う文字列抽出処理(上記のステップS305)を、図5のフローチャートを用いて説明する。
(ステップS501)文字列抽出部1105は、予め格納しているタグであり、タイトルを示すタグを読み出す。
(ステップS502)文字列抽出部1105は、文章群の中から、タイトルを示すタグで囲まれた文(例えば、<H1>と</H1>で囲まれた文)と、そのタイトルの階層の情報を取得する。なお、かかる処理は、公知のテキスト処理であり、例えば、Webブラウザで実装されているHTMLパーサの処理である。また、文字列抽出部1105は、文章群から、タイトルの文と、階層の情報の対の情報を1組以上、取得し、メモリ上に配置する。
(ステップS503)文字列抽出部1105は、カウンタiに1を代入する。
(ステップS504)文字列抽出部1105は、ステップS502で取得した文の中にi番目の文が存在するか否かを判断する。i番目の文が存在すればステップS505に行き、i番目の文が存在しなければ上位処理にリターンする。
(ステップS505)文字列抽出部1105は、i番目の文から用語(例えば、重要語)を抽出する。なお、文字列抽出部1105は、例えば、i番目の文から自立語のみを抽出する。また、自立語を抽出する処理は公知技術であるので、詳細な説明を省略する。
(ステップS506)文字列抽出部1105は、i番目の文に対応する階層の情報を取得し、当該階層の情報と、ステップS505で取得した1以上の用語を対応付けて、メモリ上に配置する。
(ステップS507)文字列抽出部1105は、カウンタiを1、インクリメントする。
なお、図5のフローチャートにおいて、タイトルを示すタグを用いて、タイトルを示す文を抽出した。しかし、文字列抽出部1105は、タイトルの文の文字属性(サイズ、色、フォントなど)が他の文字列と区別できる場合、当該文字属性を用いてタイトルの文を抽出しても良い。また、文字列抽出部1105は、最初の1行をタイトルの文であるとして、抽出しても良い。その他、タイトルの抽出方法は問わない。
次に、文字列加工部1106が行う文字列加工処理(上記のステップS308)を、図6のフローチャートを用いて説明する。
(ステップS601)文字列加工部1106は、i番目の文字列(用語)に対応する階層の情報を取得し、メモリ上に配置する。
(ステップS602)文字列加工部1106は、ステップS601で取得した階層の情報に対応する強調表示属性情報を取得し、メモリ上に配置する。
(ステップS603)文字列加工部1106は、カウンタiに0を代入する。
(ステップS604)文字列加工部1106は、ibyte目から、i番目の文字列長分までの文字列を、文章群から読み出す。
(ステップS605)文字列加工部1106は、i番目の文字列と、ステップS604で読み出した文字列を比較する。
(ステップS606)文字列加工部1106は、ステップS605における比較結果が、一致する、との結果であるか否かを判断する。一致すればステップS607に行き、一致しなければステップS608に行く。
(ステップS607)文字列加工部1106は、ステップS604で読み出した文字列の文字属性として、ステップS602で取得したる強調表示属性情報を追記する。
(ステップS608)文字列加工部1106は、カウンタiを1、インクリメントする。
(ステップS609)文字列加工部1106は、処理を終了するか否か(読み出している文章群が終了か否か、またはEOFであるか否か)を判断する。処理を終了するとの判断であれば、上位処理にリターンし、終了ではないとの判断であればステップS604に戻る。
なお、図5の用語抽出において、以下の形態素解析システムを用いても良い。形態素解析システムは、日本語を単語に分割するために使用できるシステムである。ここでは、形態素解析システムの一つであるChaSenについて説明する(奈良先端大で開発されている形態素解析システムであり、茶筌http://chasen.aist-nara.ac.jp/index.html.jpで公開されている)。
ChaSenは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。ここで、分割された単語を抽出の単位に用い、付与された品詞が抽出表現の指定に用いられる。
次に、英語のstemmer (ステマー)について説明する。単語抽出手段11052で単語を抽出するために、英語では単語はわかち書きされているので、単語を基本形式に戻すstemmingをするだけでよい。このstemmingをするアルゴリズムとしては有名なPorterのものがある。( Porter, M.F., 1980, An algorithm for suffix stripping, Program, 14(3) :130-137 参照)。
また、英語の文で単語に品詞を付けるシステム(英語の品詞タグ付けシステム)としては、Brill の文献が有名である。なお、出力の表現は、前記ChaSenと同様である。(EricBrill, Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of-Speech Tagging, Computational Linguistics, Vol.21,No.4,p.543-565,1995.参照)。
次に、本具体例1における、情報処理装置11の具体的な動作について説明する。
図7は、色分けによる強調表示の説明図である。図7において、入力された文章群の第1階層H1のタイトルのタイトル文Aがあり、第2階層H2のタイトルのタイトル文B、Cとそれぞれの本文B、Cがあるとする。そして、タイトル文Aからは重要語Aが抽出され、タイトル文Bからは重要語Bが抽出され、タイトル文Cからは重要語Cが抽出されたとする。ここで、重要語AはX色、重要語B、CはY色で強調表示するものとする。つまり、タイトル別強調表示属性格納手段11061が「H1,X色」「H2,Y色」というタイトル別強調表示属性情報を格納している。また、文字列抽出部1105は、予めタグ「H1」「H2」を格納している。
また、タイトル文Bの本文Bでは、重要語Aと重要語BがそれぞれX色、Y色で強調表示される。タイトル文Cの本文Cでは、重要語Aと重要語CがそれぞれX色、Y色で強調表示される。この本文Cでは、同じ階層の他のタイトルの重要語である重要語Bが出てきても強調表示はされない。
このように、タイトルの重要語は、そのタイトルがカバーする本文のみで強調表示されることになる。
次に、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107として機能するプログラムであるツールバーについて説明する。ツールバーの本体の部分(インタフェース部分、WEB情報の取得表示などであり、文章群受付部1104と文章群引渡部1107に対応する部分)は visual cなどのコンパイル型のプログラミング言語で開発し、ツールバーの外側の部分であるテキスト処理(文の文字列処理であり、文字列抽出部1105、文字列加工部1106に対応する部分)は、Perlなどのインタープリタ型のプログラミング言語で開発する。
Perlは、インタプリター型の言語(事前にコンパイルせずに、実行時にコンパイルして動作する。速度は遅いがメインテナス、システム構築が容易)であり、また、正規表現を含む文字列処理に便利なものである。
ツールバー本体(インタフェース部分、WEB情報の取得表示など) では、HTML(hypertext markup language )の表示を行う。テキスト処理を、正規表現を含む文字列処理が可能なインタプリター型のプログラミング言語では、元のHTMLを変換して新しいHTMLを作る。ツールバー本体(インタフェース部分、WEB情報の取得表示など) で新しいHTMLの表示を行うようにする。HTML内部に、強調表示したい単語にはHTMLのタグで色付けなど行う。
また、格納手段11053を外部(交換可能)に持って、格納手段11053のファイル(データ)で階層ごとに単語の色を定義して、それに基づいて強調表示することもできる。例えば、格納手段11053を入れ換えれば強調表示する階層の色を変更することができる。なお、格納部として、副詞辞書、人名辞書等を入れて人名や副詞等の強調表示を行うこともできる。
さらに、別のperlプログラムを外部(交換可能)に持って、そのプログラムにより、強調表示することもできる。perlは、インタプリター型の言語なので、ツールバー本体の外にもテキストファイルとしてプログラムを持つことができる。そのプログラムを交換しますと、ほとんどあらゆる他の種類のHTMLの変更が可能となる。これは、強調表示にとどまらないものである。このような変更が外のプログラムを修正するだけでできるようになる。
また、文章群中単語抽出手段11054で、強調表示する入力された文書のファイルの大きさが所定値より大きい(この所定値は入力する部分を設けてユーザが自由に設定できるようになっている)場合、強調表示を行わないようにする。これは、強調表示する入力された文書であるHTMLファイルが大きくて時間がかかり過ぎる処理を行うことを防止するものである。
本発明は、本文において重要な個所が容易に把握でき便利であり、Webブラウザなどの文書閲覧システムにおいて利用可能であり、インターネットエクスプローラー等のWebブラウザのツールバーとして組み込んで利用できる。
図8は、ツールバー表示の説明図である。図8において、情報処理装置11の表示画面30には、最上段にはデータのタイトル31、2段目には処理を指定するコマンド列32、3段目には閲覧している場所を示している。4段目にはツールバーにオプション領域を設け、オプション領域を選択(指定)すると、「headline」、「副詞」、「原子記号」等の表示が現れる。この「headline」を選択することにより、上述したテキスト処理が行われ、下の画面35に表示されている文書(テキストデータ)のタイトルに出てくる重要語が強調表示される。この強調表示は、「headline」を再度選択することにより強調表示されない通常の表示に戻すことができる。
なお、「副詞」を選択することにより、文書(画面35)中のプラスイメージとマイナ
スイメージの副詞(又は形容詞)を色分けして強調表示するものである。「原子記号」を選択することにより、文書(画面35)中の原子記号を強調表示するものである。なお、プラスイメージとマイナスイメージの副詞(又は形容詞)を色分けして強調表示する処理、および「原子記号」を選択することにより、文書(画面35)中の原子記号を強調表示する処理については、後述する。
また、階層的にタイトルを強調表示する際に、階層ごとに異なる色を用いる。6階層までの場合は、異なる6色を用いることができる。
図9は強調表示例の説明図である。図9において、h1は1階層のタイトルを示しそれ以降がタイトル文である。h2は2階層のタイトルを示しそれ以降がそのタイトル文である。h3は3階層のタイトルを示しそれ以降がそのタイトル文である。h4は4階層のタイトルを示しそれ以降がそのタイトル文である。h5は5階層のタイトルを示しそれ以降がそのタイトル文であることを示している。
ここで、文中の単語の区切り方が英語と日本語で異なるので、次のように処理している。
(1)ヘッドライン(タイトル)に一つでも日本語が含まれている場合、日本語と仮定して、区切り文字(カンマ、スペースなど)を考慮しない。前後に区切り文字がなくてもマッチする。
(2) その他の場合、英語と仮定して、区切り文字(カンマ、スペースなど)を考慮する。この場合前後に区切り文字がなければマッチしない。
1階層の「システム」の強調表示は、2〜5の階層でも同じ強調表示がされている。1階層と異なる2階層の「情報」「処理」の強調表示は、3〜5の階層でも同じ強調表示がされている(なお、階層が同じ場合は同じ強調表示を行う)。2階層と異なる3階層の「項目」の強調表示は、4、5の階層でも同じ強調表示がされている。なお、1階層の「システム」のように2階層以下でも強調表示されるものは1階層の強調表示を行う(上位の強調表示を優先する)。
このようにして、一つの文書の階層ごとのタイトルの説明が本文中のどこで説明されているかを容易に見つけることができる。
(具体例2)
次に、情報処理装置11が、特許書類(特許請求の範囲、特許明細書、要約書などを含む)の特許請求項の範囲全体または、代表的な請求項(例えば、請求項1)から用語を抽出し、当該抽出した用語であり、特許書類に出現する用語に対して強調表示する処理を行う例について説明する。ここでは、さらに具体的に、複数の請求項から抽出した各用語に対して、抽出した請求項ごとに、強調表示の仕方を変更する態様について説明する。
図10は、本具体例における情報処理装置11のブロック図である。情報処理装置11は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107、出力部1108を具備する。また、文字列抽出部1105は、請求項抽出手段110511、単語抽出手段110512、格納手段11053、文章群中単語抽出手段110514を具備する。文字列加工部1106は、強調表示属性付与手段110612を具備する。
請求項抽出手段110511は、文章群である特許書類中の請求項のタグを認識し、請求項を一つずつ抽出する。
単語抽出手段110512は、請求項抽出手段110511が抽出した請求項の文字列から、単語を抽出し、単語ごとに、請求項の番号と対応付けて、格納手段11053に書き込む。文から単語を抽出する方法は、単語抽出手段11052と同様である。
強調表示属性付与手段110612は、文章群中単語抽出手段11054が抽出した各用語に対して、対応する請求項の番号を取得し、当該請求項の番号に対応する強調表示属性情報を決定する。そして、強調表示属性付与手段11062は、文章群中単語抽出手段11054が抽出した各用語(文字列)の属性値として、取得した強調表示属性情報を付与する。
以下、文字列抽出部1105が、特許書類に対して行う文字列抽出処理(上記のステップS305)を、図11のフローチャートを用いて説明する。
(ステップS1101)請求項抽出手段110511は、カウンタiに1を代入する。
(ステップS1102)請求項抽出手段110511は、i番目の請求項が文章群(特許書類)の中に存在するか否かを判断する。i番目の請求項が存在すればステップS1103に行き、i番目の請求項が存在しなければ上位処理にリターンする。
(ステップS1103)請求項抽出手段110511は、i番目の請求項を、文章群(特許書類)から取得する。
(ステップS1104)単語抽出手段110512は、ステップS1103で取得したi番目の請求項(文章)から1以上の用語を抽出する。文から用語を抽出する処理は種々ある。例えば、単語抽出手段110512は、文を形態素解析し、所定の自立語に対応する用語を抽出する。また、単語抽出手段110512は、「〜部と、」「〜手段と、」という手がかり語を用いて、構成要素名「〜部」「〜手段」のみを用語として抽出しても良い。また、単語抽出手段110512は、文を形態素解析し、かつ係り受け解析し、構成要素名のみを用語として抽出しても良い。
(ステップS1105)単語抽出手段110512は、請求項の番号「i」と対応付けて、ステップS1104で抽出した1以上の用語を、格納手段11053に書き込む。
(ステップS1106)請求項抽出手段110511は、カウンタiを1、インクリメントする。ステップS1102に戻る。
次に、文字列加工部1106が行う文字列加工処理(上記のステップS308)を、図12のフローチャートを用いて説明する。図12のフローチャートにおいて、図6のフローチャートと同様のステップについて説明を省略する。
(ステップS1201)強調表示属性付与手段110612は、請求項の番号iに対応する強調表示属性を取得する。なお、強調表示属性付与手段110612は、iに対応して予め保持していても良いし、生成しても良い。強調表示属性を生成する場合、強調表示属性付与手段110612は、例えば、色の値を取得する関数にiをパラメータとして代入する。
以下、さらに具体的に説明する。まず、情報処理装置11は、図13に示す請求項を有する特許書類(文章群)を受け付けた、とする。
次に、情報処理装置11の請求項抽出手段110511は、請求項1から順に文章を読み出す。そして、単語抽出手段110512は、各請求項(文章)から1以上の用語を抽出する。その結果を、図14の用語管理表に示す。用語管理表は、「請求項番号」と「用語」を対に有する。
次に、図14の用語管理表の用語と請求項番号を一組ずつ抽出する。そして、強調表示属性付与手段110612は、請求項番号に対応する強調表示属性(ここでは、文字列の背景色)を取得する。
そして、文字列加工部1106は、特許書類を1byte目から走査し、図14の用語管理表の用語が存在するか否かを判断する。用語が存在すれば、文字列加工部1106は、当該用語に対応する請求項番号に対する強調表示属性を、抽出した用語(文字列)の文字属性とする。なお、ここで、文字列加工部1106は、用語の直前または直後に、請求項番号を示す情報を挿入しても良い。
そして、文章群引渡部1107は、文字列加工部1106が得た新しい特許書類を、出力部1108に渡す。次に、出力部1108は、渡された特許書類を、ディスプレイに表示する。この表示例を図15に示す。図15において、文字列の背景色を見れば、どの請求項の文字列かが容易に把握できる。また、用語の前に請求項番号(例えば、[1])が挿入されているので、さらに容易に、文字列が出現する請求項番号が把握できる。
(具体例3)
次に、情報処理装置11が、文章群が有する科学記号に対して強調表示する処理を行う例について説明する。科学記号とは、ここでは、化学記号や物理記号、特に元素記号、電子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式などを含む。
図16は、本具体例における情報処理装置11のブロック図である。情報処理装置11は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107、出力部1108を具備する。また、文字列抽出部1105は、抽出情報格納手段110521、文章群中単語抽出手段110524を具備する。文字列加工部1106は、強調表示属性格納手段110621、強調表示属性付与手段110622を具備する。
抽出情報格納手段110521は、文章群から科学記号を抽出するための情報である抽出情報を格納している。抽出情報は、例えば、科学記号とその発現条件を対にした情報である。また、抽出情報は、文字列を抽出するためのルールである。ルールの具体例は後述する。
文章群中単語抽出手段110524は、抽出情報格納手段110521の抽出情報を用いて、文章群中の文字列(単語)を抽出する。単語の抽出方法の具体例は後述する。
強調表示属性格納手段110621は、強調表示属性を格納している。強調表示属性は、科学記号を強調表示するための情報であり、例えば、文字の色、サイズ、フォント、背景色などの属性である。また、強調表示属性は、色を変更する確度の閾値でも良い。つまり、テキストの全文又は一領域が黒色である場合、確度が閾値以上の場合にそれを赤色で表示する一方、閾値よりも低い場合には色を変化させないことができる。この場合、例えば閾値(強調表示属性)を0.2とするとHは黒色のまま、Heは赤色で表示されることとなる。例えば、抽出情報が有する元素名を表す英語名称(hydrogenなど)の確度が1の場合、その英語名称(hydrogenなど)は赤色で表示される。
強調表示属性付与手段110622は、強調表示属性にしたがって、抽出された文字列に属性を付与する。つまり、強調表示属性付与手段110622は、文字列の色属性を「赤」に設定したりする。
抽出情報格納手段110521、強調表示属性格納手段110621は、ハードディスク等の不揮発性の記録媒体が好適であるが、RAM等の揮発性の記録媒体でも実現可能である。
文章群中単語抽出手段110524、強調表示属性付与手段110622は、通常、MPUやメモリ等から実現され得る。文章群中単語抽出手段110524等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。また、文章群中単語抽出手段110524、強調表示属性付与手段110622を実現するプログラムは、インタプリタ型の言語で記述されていることが好適である。
以下、文字列抽出部1105、文字列加工部1106が、文字列加工処理(上記のステップS308)により、文章群から科学記号を抽出し、強調表示するための処理を図17のフローチャートを用いて説明する。なお、文字列抽出部1105が文字列を抽出する処理(上記のステップS305)は、ここでは、文章群中単語抽出手段110524が、抽出情報格納手段110521から抽出情報を読み出す処理等に該当する。
(ステップS1701)文章群中単語抽出手段110524は、カウンタiに0を代入する。なお、iは、文章群中の抽出する単語の先頭を示すオフセットである。
(ステップS1702)文章群中単語抽出手段110524は、カウンタjに1を代入する。なお、jは、抽出情報格納手段110521中の抽出情報のカウンタである。
(ステップS1703)文章群中単語抽出手段110524は、抽出情報格納手段110521にj番目の抽出情報が存在するか否かを判断する。j番目の抽出情報が存在すればステップS1704に行き、j番目の抽出情報が存在しなければステップS1710に行く。
(ステップS1704)文章群中単語抽出手段110524は、文章群中のibyte目からの文字列に対して、j番目の抽出情報を適用する。ここで、適用とは、抽出情報が文字列の場合は、文章群中のibyte目から、抽出情報の文字列長分の文字列を切り出し、当該切り出した文字列が、j番目の抽出情報と一致するか否かを判断する。また、適用とは、抽出情報がルールの場合、文章群中のibyte目から、ルールの対応する文字列長分の文字列を切り出し、当該切り出した文字列が、j番目の抽出情報に合致するか否かを判断する。
(ステップS1705)文章群中単語抽出手段110524は、ステップS1704における適用結果が、「合致」との判断の場合、ステップS1706に行き、「不合致」の場合、ステップS1709に行く。
(ステップS1706)強調表示属性付与手段110622は、j番目の抽出情報に対応する強調表示属性を取得する。
(ステップS1707)強調表示属性付与手段110622は、ibyte目からの抽出した文字列の属性として、ステップS1706で取得した強調表示属性を付与する。
(ステップS1708)文章群中単語抽出手段110524は、カウンタiに、「i+強調表示した文字列の文字列長」を代入する。ステップS1702に戻る。
(ステップS1709)強調表示属性付与手段110622は、jを1、インクリメントする。ステップS1703に戻る。
(ステップS1710)強調表示属性付与手段110622は、iを1、インクリメントする。ステップS1702に戻る。
図17のフローチャートにおいて、文章群中のポインタを1byteずつずらしながら、文字列(科学記号)を抽出したが、文章群を構成する各文章を形態素解析し、取得した自立語に対して、抽出情報を適用して、強調すべき文字列(科学記号)を抽出しても良い。
以下、さらに具体的に説明する。ここで、図18は、抽出情報の一例を示す。図18において、各元素記号等(140)に対応して、それが単体でテキスト上に発現したときの科学記号である確度(141)が定義されている。例えば水素(H)に対しては0.1、ヘリウム(He)に対しては、0.2、リチウム(Li)に対しては0.5というように定義している。
このように各元素に対して確度が異なるのは、元素記号が英単語と一致することがあり、その一致の可能性の大小によって定義しているからである。すなわち、Heの場合、英単語の彼を表すHeと一致しているため、文頭に単独で発現した場合には「He(彼)」か「He(ヘリウム)」かの判断が難しい。そのため確度は0.2となる。一方、ネオン「Ne」の場合、英語で文頭にNeが書かれる場合は極めて希であるから、確度は0.7としている。
このように確度は対象とする言語によっても異なるため、テキストの言語に応じてそれぞれ定義されることが望ましい。例えば日本語論文の中でHeが発現するのは通常は多くないため、より高い確度を定義してもよいと考えられる。
また、強調表示属性格納手段110621は、確度に応じた文字色(背景色などの他の文字属性でも良い)を格納している、とする。つまり、例えば、強調表示属性格納手段110621は、「確度<0.1;黒」「0.1<=確度<0.6;灰色」「確度<=0.6;赤色」という強調表示属性を保持している、とする。強調表示属性格納手段110621は、閾値(確度)を2個以上備えている。また、上記の例は、閾値0.6以上の場合には赤色、0.1以上0.6未満の場合は灰色で表示するとの定義である。
かかる場合、図19の文章群を入力すると、情報処理装置11は、上記の図17のフローチャートにおける処理を行い、Neや元素名称は赤色、それ以外の元素については灰色で表示する。ここで、赤色とはテキストを表示する基本文字色(黒色)と色相が異なる色の例であり、色相が異なることで読者は完全に当該文字列を識別することができる。黒色の基本文字色に対してピンク色、黄色なども好適である。
一方、灰色とは基本文字色と明度が異なる色の例である。基本文字色と明度が異なるだけの場合、読者は強い違和感を覚えることがない。特に意識しない限り閲読を妨害しないので快適に閲読することができる。逆に意識をして読むと、明らかに基本文字色と異なるので明確に視認することができる。
このように本方法によれば、確実に科学記号と判定できるものについては読者に強く提示する一方、不確実なものについては注意を促す程度の表示が可能である。明度と共に彩
度を変化させる構成でもよい。
なお、色相、明度、彩度は特異表示文字列抽出処理部(102)で周知の技術により変
化させ、モニタ(12)から表示することが可能である。
本発明の構成では、以上の確度を取得することにより、強調表示属性付与手段110622は、確度に応じた文字色を決定し、例えば、当該文字色に応じたタグ(例えば、HTML文書の場合)を書き込む。
ここで、確度を算出する時に発現条件に基づいて行うことが挙げられる。以下にこの点を説述する。
本発明における発現条件とは、確度を算出する科学記号がテキストデ−タ中でどのような条件下で発現しているかを定義したものである。例えば、上述した例では各元素が「文頭に単独で発現した」ことを条件としている。すなわち、文章群中単語抽出手段110524は、ピリオド、読点、改行コ−ドなどに基づいて、その発現位置が文頭であるか否かを判定する。
発現条件を用いた確度Yの算出は、文章群中単語抽出手段110524において、以下の数式1に従って行う。
上記において、p(str)は科学記号候補文字列strの基礎となる確度(141)、ai(str)は科学記号候補文字列strに対する抽出情報格納手段110521(図18)の発現条件iで定められた確度であり、xiは発現条件iに該当するときに1、該当しないときに0をとる。
従って、strが「H」であるとき、後述するように文頭(142)になく(xcap=1)、連接(143)する文字列がなく(xcohere=0)、イオン表記(34)でない(xion=0)場合には、0.1+0.1*1+0.2*0+1*0=0.2が求める確度となる。
なお、上記のxcap 、xcohere 、xionはそれぞれ数1におけるxiの発現条件として「文頭にない」「連接する文字列がある」「イオン表記である」に対応するパラメ−タである。
文章群中単語抽出手段110524で抽出された科学記号候補文字列がピリオド等の直後に配置される場合には文頭に発現したものと判定できるので、上記抽出情報格納手段110521(図18)の文頭位置に対応する各確度を取得する。
しかし、同時に抽出情報格納手段110521(図18)には当該文字列が文頭でない場合の確度を格納している。これに係る項目が図18のcapで表示された欄(142)である。抽出情報格納手段110521(図18)の2行目は、文頭でない位置に「He」が出現した時にその確度は1を加算することを意味している。従って、この場合確度は1.2となる。実際には本実施例では確度が1を最大と規定しており、1を超えた確度は全て1として処理する。
なお、本発明の実施形態として抽出情報格納手段110521(図18)中に大文字を含む文字列が掲載されている場合には、大文字と小文字を掲載されている通りに区別し、小文字だけで表記された文字列については全て小文字の他、全て大文字、それらの混在、いずれも抽出対象としている。
英語の場合には、文頭以外に先頭が大文字の文字列が配置されていれば固有名詞等である可能性が高く、このようにすることで1文字目を一般的に大文字で表記する元素記号等を高精度に表示することができる。
本発明の発現条件としては文頭か否かだけでなく、抽出情報格納手段110521(図18)に掲載された他の文字と分かち書きを行わずに連接して表記されている場合の確度を定義している。本項目は欄(143)のcohereに続く数値でありこれに基づいて確度を算出する。例えば抽出情報格納手段110521(図18)の8行目にあるOの場合、単独で文頭にある場合には確度は0.1であるが、仮にHと連接してOHと記載されていた場合、確度は0.2が加算されて0.3となる。
以上の構成によりOHのように連接した場合には単体のOよりも確度が高く評価されるため、正確な表示を行うことができるようになる。
なお、OHのように2個の連接でなく、3個以上の科学記号候補文字列が連接した場合にも確度はそれぞれについて0.2を上限として加算するようにしている。これは、略語など大文字が連続した場合でも必ずしも科学記号とは言えない場合が多いためであり、徒に確度が高まるのを防ぐようにしている。
これと関連して、科学記号と判定されやすい特定の文字列について確度を下げるデータベースを外部記憶装置(13)に備えてもよい。科学記号除外文字列データベース(図示しない)として設け、文章群中単語抽出手段110524において該データベースと一致した場合には、抽出しないようにすることができる。すなわち、Convergent Close-Coupling やSmall Office Home Officeを示すCCC、SOHO等の文字列の場合、これらを構成する文字列はいずれも科学記号であって、連接することから確度が上昇しやすい。しかし、抽出処理の段階で科学記号除外文字列データベースに一致した文字列については抽出結果から取り除く処理を行う。
もちろん、科学記号除外文字列データベースを用いずに本発明は構成することができる。
あるいは、文章群中単語抽出手段110524は、該科学記号除外文字列データベースと一致する文字列については確度を0になるように算出処理をおこなってもよい。この場合、科学記号除外文字列データベースを別に設けず、上記科学記号及び発現条件を格納した抽出情報格納手段110521(図18)に、例えば確度−10として登録しておいてもよい。計算結果で負となる場合に確度0として処理することで、これらの文字列はいずれも確度0となり、科学記号候補から除外される。
上記構成に加えて、連接する各文字列に対して、連接文字列中で最も確度が高くなる文字列と等しい確度を設定することができる。
上記のOHを例にとると、Oの確度は文頭であってHと連接するため確度は0.3、Hの確度は文頭でなくOと連接することから0.8となる。このような場合、Oの確度は連接文字列中で最も高い0.8と設定する。
本構成により、一連の連接する文字列間で確度に整合性がとれるだけでなく、文字色を確度によって変化させた場合に視認しやすい表示に寄与する。
科学記号候補文字列の並びについては他にも次のような処理が可能である。
まず、分子構造を表す場合などハイフンを用いて元素を接続することがある。本具体例では、上記連接の場合と同様にハイフンで接続された文字列も処理する。このように科学記号を接続するのに用いられる文字記号を予め記憶させておき、該文字記号で接続されている場合には連接しているのと同様の処理を行わせてもよい。
あるいは、上記のように連接した場合に連接文字列中で最も高い確度を各文字列に設定するのではなく、所定の確度以上の文字列と連接する場合に、各確度を上昇させるように構成してもよい。すなわち、抽出情報格納手段110521(図18)に、例えばhighという項目を設けて、閾値0.6以上の科学記号候補文字列と連接した場合に、確度+0.7又は0.8を定義する。この場合、上記OHの例で言えば、Hの確度が0.8で閾値以上であるため、Oの確度も例えば0.7加算されて1となる。
さらに、連接の概念をより広めて構成することもできる。すなわち、本発明に言う連続とは、科学記号候補文字列が連接した場合、ハイフンで接続された場合に加えて、当該テキストデ−タの言語における接続詞等を用いて接続した場合を含めても良い。英語であれば、複数の名詞を並列する場合に、A,B and Cのように、コンマと文字列andで接続される。
このとき、抽出された科学記号候補文字列間にコンマ又はandやorなどを含む場合に、連接しているのと同様(この場合を並列と呼ぶ。)に処理することができる。
並列の場合にも、全ての並列する科学記号候補文字列の確度を並列文字列中で最大確度に合わせてもよいし、抽出情報格納手段110521(図18)に定めた値を加算するようにしてもよい。後者の場合には、連接の場合とは異なる数値を定めることもできる。
以上のように連接や並列の場合に、他の科学記号候補文字列の確度を互いに影響させることで高精度な表示を行うことができる。
発現条件は、対象とする科学記号に合わせて適宜定義することができる。例えば元素記号の場合にはイオンを示すプラス・マイナス記号が付されることが多く、これらが付された場合には極めて高い確度で科学記号と判定できる。
具体的には、文章群中に、タグなどによって書式指定がされ、In<sup>+</sup>のように、上添字の+によるイオン表記となる科学記号を検出する。同様に、(n+)や(n−)(nは任意)などの所定の書式の場合に、図18における欄(144)に従って確度を1とする。
同様に例えば分光記号におけるSPDFなどの文字列や、原子軌道を示すs軌道、p軌道の電子配置、遺伝子の塩基配列におけるA、G、T、C、Uなどの文字列を他の文字との組み合わせで確度を算出するようにしてもよい。
これらの科学記号は文字の記載順序など確立されたル−ルに従って発現するため、本発明のように発現条件を付与可能な抽出情報格納手段110521(図18)を用いることで効果的に抽出することができる。
イオン表記や、他の文字との組み合わせで確度が高くなった科学記号について、同一のテキストデ−タ中で単独で出現した場合にも、その確度を上げる処理をおこなってもよい。
すなわち、一度全部のテキストデ−タについて確度算出を行って、イオン表記等による確度の確定を行い、再び抽出された各科学記号候補文字列について確度の再定義処理を行う。
本処理では、イオン表記など所定の発現条件に合致した文字列について、単独で現れているものを抽出し、その確度に所定値、例えば+0.7を加算する。あるいは、上記イオン表記等で定義された確度と同一値を与えてもよい。
本処理によれば、イオン表記や他の文字との組み合わせの出現によって単体でも現れる蓋然性の高い文字列について高い確度を定義することができる。
本発明の別実施例として、文章群中単語抽出手段110524が、形態素解析処理を行う形態素解析処理手段(図示しない)を備えたものと、することができる。
形態素解析については公知の技術であり、日本語の形態素解析技術として例えば茶筌(インターネットホームページ URL<http://chasen.aist-nara.ac.jp>に記載)を用いることができる。
また、分かち書きをする英語などのラテン文字を用いるテキストデ−タでは形態素への分割は容易であるがHMMなどの統計的手法により同様に解析処理が行える。形態素解析を用いて品詞を見分けることも行われている。
形態素解析処理は、科学記号を抽出する前処理として行う。このとき、周知のように外部記憶装置に格納された形態素解析辞書を用いながら解析する。上記実施例では抽出情報格納手段110521(図18)に掲載された情報と照合することで科学記号を抽出したが、本実施例では解析の結果得られた形態素と抽出情報格納手段110521(図18)の内容とを比較して一致するものを抽出する。
形態素解析をすると、形態素の区切りがより正確になるため抽出情報格納手段110521(図18)との照合も確実に行うことができる。さらに形態素解析で各形態素の品詞を取得することができる。これを利用し、抽出情報格納手段110521(図18)に文字列と共に品詞情報を付与し、上記と同様にその場合の確度を定義しておくこともできる。
本構成によると、例えば、Heが名詞であれば元素名である確度を高く定義する一方、代名詞であれば、科学記号である可能性は極めて低いため確度を0となるように「-10」と定義することもできる。
以上のような別実施例によりさらに高精度なデ−タの表示装置を提供することが可能である。
さらに本発明では、ある科学記号は、特定の文字列と共にテキストデ−タ中に現れるときに、科学記号である確度が高いことに着目して、次のような処理を行うこともできる。すなわち、特定の文字列を手がかり表現とし、テキストデ−タ中の同一文あるいは前後所定の形態素数内において、科学記号と共起しやすい文字列(手がかり表現)が抽出されるときに、対応する科学記号の確度を高める。本構成は、文章群中単語抽出手段110524において、科学記号を抽出すると共に、予め格納されている手がかり表現テ−ブル(図示しない)を参照して手がかり表現を抽出する。
手がかり表現テ−ブルには、例えば元素記号と共起しやすい表現である「-like ion」などと、各元素記号との組み合わせを格納しておく。
そして、共起文字列「-like ion」が抽出された場合には、組み合わせとして定義されている各科学記号候補文字列の確度を確度算出において上昇させる。上昇値は、上記のように抽出情報格納手段110521(図18)中に定義しておくか、手がかり表現テ−ブル(共起文字列テ−ブル)中に共起した場合の確度の値を定義しておく。
上記では手がかり表現テ−ブルを予め人手によって定義するが、これを自動化して該テ−ブルを構成することもできる。
本処理には一般的な例文として科学記号を含むテキストコ−パスを用いる。該コ−パスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義されている。文字列が科学記号か否かも定義されている。
なお、本発明では単語列の形態素、品詞などが定義されていないコ−パスを用いても良く、その場合には公知の形態素解析器(図示しない)や辞書データベースを用いてこれらを自動的に付与した後に、次の処理に進んでもよい。
上記では手がかり表現テ−ブルを予め人手によって定義するが、これを自動化して該テ
−ブルを構成することもできる。
本処理には一般的な例文として科学記号を含むテキストコ−パスを用いる。
該コ−パスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義され
ている。文字列が科学記号か否かも定義されている。
なお、本発明では単語列の形態素、品詞などが定義されていないコ−パスを用いても良
く、その場合には公知の形態素解析器(図示しない)や辞書データベースを用いてこれら
を自動的に付与した後に、次の処理に進んでもよい。
まず、テキストコ−パスから抽出情報格納手段110521(図18)を参照して科学記号候補文字列を抽出する。
そして、該テキストコ−パス中の当該科学記号候補文字列を含む同一文に共起する文字列(手がかり表現候補)を抽出する。テキストコ−パス内の全文について手がかり表現候補が科学記号候補文字列と共起する回数N1をカウントする。
次に、当該手がかり表現候補を含む文について、当該科学記号候補文字列が現れない回数N2をカウントする。すなわち、科学記号候補文字列と手がかり表現候補が共起せず手がかり表現候補のみが単独で現れる回数である。
さらに、N2が0でなければN1/N2を算出することにより、共起する割合が所定の閾値以上であるか否かを確認する。N2が0の場合には閾値以上のときと同様に処理を行っても良いし、N1が所定回数、例えば3回以上の場合にだけ同様の処理を行っても良い。
あるいは、N2がすべての場合に適用しうるように、N1/N2の算出(159)に替えてN1/(N1+N2)を算出する構成でもよい。
加えて、上記の回数N1が回数N2よりも有意に大きいことを二項検定などの公知の統計的検定の手法に基づいて確認し、確認が取れた場合に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブルに記録する。
本実施例として、二項検定を行う方法を説述する。初期値として、一回の試行で科学記号候補文字列と手がかり表現候補とが共起する確率及び、科学記号候補文字列と手がかり表現候補とが共起せず後者だけが単独で出現する確率をそれぞれ0.5とする。
そして、N1+N2の総出現のうちN2回以下、科学記号候補文字列と手がかり表現候補とが共起せず手がかり表現候補のみが出現した確率を求める。
すなわち、この確率は、以下の数式2になる。
ただし、Σは、x=0からx=N2の和、C(A,B) は A個の異なったものからB個のものを取り出す場合の数である。
数式2で表され、この確率の値が十分小さければN1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことが判断できる。
そして、5%検定ならば上記P1が5%よりも小さいこと、10%検定ならばP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準となる。
上記では同一文としたが、単に同一文ではなく、共起する表現を前方で連接する単語列(前方1単語列に共起する)や共起する表現を後方で連接する単語列(後方1単語列に共起する)手がかり表現候補に限定してもよい。単語列としては形態素や、形態素の集合を用いることができる。
科学記号候補文字列の確度を高精度に算出する別の方法として、次の技術を組み合わせて用いることもできる。
本技術は科学記号候補文字列が、一般的な文章に比して多く出現する場合には当該文字列が科学記号である確度が高いと判定するものである。例えば、leadという文字列を考えたとき、これは科学記号(元素名)である可能性と、「導く」などを意味する英単語である可能性とがある。
後者の意味の英単語は一般的な文章において頻繁に出現することは少ないが、科学論文において鉛を話題にした文章では頻繁に出現する。この場合、科学記号として処理するのが好適である。
そこで、図17に示すように、まず文章群から科学記号を抽出したとき、抽出された当該科学記号の個数と該文章群を構成する全単語数との比、すなわち出現率R1(当該科学記号候補文字列の出現数/全文字列総数)を算出する。
次に、一般的なテキストコ−パス(例えば新聞記事)を用いて、同様に該テキストコ−パスにおける当該科学記号候補文字列の出現数/全文字列総数を算出する。これを出現率R2とする。
そして、出現率の比R1/R2を算出し、所定の閾値より大きいか否かを判定する。
加えて、上記のR1がR2よりも有意に大きいことを比の検定、またはカイ二乗検定などの公知の統計的検定の手法に基づいて確認し、確認が取れた場合(例えばカイ2乗検定で1%水準、又は5%水準等で有意と認められた場合)に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブルに記録する。
上記カイ2乗検定について説述すると、R1を計算する分母、分子をそれぞれN1、F1とし、R2を計算する分母、分子をそれぞれN2、F2とする。
N=N1+N2として、カイ2乗値は次式(数式3)により求められる。
そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、例えばカイ二乗値が3.84よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき危険率1%の有意差があると言える。
次に比の検定を用いる場合を説述する。まず、以下の数式4を定義する。
そして、2群の比率の差の検定における検定統計量は、以下の数式5で表される。
このとき、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき危険率5%の有意差があると言え、Zが2.58よりも大きいとき危険率1%の有意差があると言える。
これらの実施例において確度を抽出情報格納手段110521(図18)に予め定義する構成を説述した。しかし、以下のようにテキストデ−タから確度を自動的に修正する構成を用いることもできる。
文章群を入力した後、科学記号を抽出する際に、文章群中の科学記号候補文字列の数をカウントする。該カウントはCPUにより公知の方法で実行処理することができる。
そして、該カウントが予め定めた閾値(例えば500ワ−ド中に5回以上などと定義する)である場合には、抽出情報格納手段110521(図18)に定義された確度を上昇させる書き換え処理(172)を行う。
このように書き換えられた抽出情報格納手段110521(図18)を用いて確度の算出を行うことで、頻繁に出現する文字列については科学記号であるとの判定が出やすくする。本方法が有効であるのは例えば英語の前置詞と元素記号が同一スペルの場合に、そのスペルの文字列が一定以上多い場合には、そのテキストデ−タには当該元素記号に係る内容が含まれている可能性が高く、これらをもれなく抽出表示するためである。
また、NやOなどの大文字1文字の場合にも有効であり、文頭以外の場所に頻繁にこれらの文字が発現する場合には、文頭に発現した際にも科学記号であるとの判定が出やすくなる。
なお補足すると、抽出情報格納手段110521(図18)には確度ではなく表示色を直接定義してもよい。この場合、発現条件毎に表示色を直接定義し、上記同様の効果を奏する。
また、本実施例では表示色を変更する構成を開示したが、色ではなく書式を変化させる構成でもよい。周知のようにテキストデ−タの表示態様としては文字フォントの変更や下線の付与、網掛け表示、括弧による範囲表示などが知られており、これらを用いて文字色を変化させる代わりに所望の範囲を読者に表示することができる。
以下には、本発明の具体的な実施例として、表示色と各科学記号候補文字列の判定ルールについて説述する。つまり、抽出情報がルールである。
図20は、本発明における表示色の定義である。図示のように、ル−ル1,3,4,5,6,7,8を定め、それぞれにル−ル1では原子・分子・イオンを表現する場合に桃色で表示すること、ル−ル3では電子配置の表現に黄色で表示すること、のように定義している。なお、ル−ル2は欠番である。
上述した発現条件と関連して、ル−ル1の判定には電子eや、+/-の上下添字、原子名に上下添字、IVXivxの表現、"like"/"ic"についても同様に桃色で表示することを定義する。
ル−ル3の判定では、「数字*」(*はあってもなくても良いことを示す。以下同じ。)「s/p/d/f/g」「上下添字*」の一回以上の繰り返しでかつ、数字が少なくとも1回は含まれることを条件とする。
ル−ル4の判定では、「上下添字*」「S/P/D/F/G」「上下添字*」の一回以上の繰り返しでかつ、「上下添字」が少なくとも1回は含まれることを条件とする。
また、上記ル−ル1と競合した場合は下のより厳密な規則を採用する。
すなわち、「上添字*」「S/P/D/F/G」「下添字*」の一回以上の繰り返しでかつ、添字の中身はル−ル1から4に限られ、上下添字のいずれかは出現する条件とする。
ル−ル5の判定では、「n/l」「=/</>」の一回以上の繰り返しや、数字を条件として水色で表示する。
ル−ル6の判定では、「(ル−ル3の表現)のゼロ回以上の繰り返し」「数字/n/n-barl」が出現した場合に、橙色で表示する。
ル−ル7の判定では、英語アルファベット大文字一文字からなる原子名について、まわりに手がかり表現(-like ion等)などがなければ、原子名でない可能性が高いと判断してル−ル7に分類する。また、英語アルファベット大文字一文字からなる原子名が連続した表現や"Rev"、の場合にも手がかり表現がなければ同様にル−ル7に分類する。
As,In,At,Heが文頭に出現した場合、前置詞や代名詞の可能性が高いためル−ル7に分類する。
さらに以上のような表示色のル−ルによっていずれの条件にも合致しなかったものの、科学記号候補文字列として抽出されたものをル−ル8とし、濃い灰色で表示した。
なお、図20において、ルールは、通常、正規表現で示されるが、便宜上、その意義を示す用語(「原子、分子、イオン」など)を記載している。
以上のような表示色のル−ルは、上記確度の算出結果に連動しており、抽出情報格納手段110521(図20)の構成を適切に設計することによって実現している。
(具体例4)
次に、情報処理装置11が、プラスイメージとマイナスイメージの副詞(又は形容詞)を色分けして強調表示する処理を行う例について説明する。
文字列抽出部1105は、プラスイメージの副詞(又は形容詞)を格納しているプラスイメージ用語格納手段と、マイナスイメージの副詞(又は形容詞)を格納しているマイナスイメージ用語格納手段と、当該プラスイメージの副詞(又は形容詞)と、マイナスイメージの副詞(又は形容詞)を、文章群中から抽出する文字列抽出手段を具備する。
また、文字列加工部1106は、プラスイメージの副詞(又は形容詞)を強調するための属性情報と、マイナスイメージの副詞(又は形容詞)を強調するための属性情報を格納しており、対応する強調が行えるように、文字列抽出部1105が抽出した文字列を強調処理する。
文章群中のプラスイメージとマイナスイメージの副詞(又は形容詞)に強調処理が施された後の文章群の表示処理は、上記と同様である。
以上、本実施の形態において、タイトルで使用されている用語(重要語など)を、そのタイトルの階層に応じて、強調方法(属性)を変えて、強調表示できる。また、本実施の形態において、特許の請求項で使用されている用語を、その請求項番号に応じて、強調方法(属性)を変えて、強調表示できる。また、本実施の形態において、科学記号を、その種類ごと等により、強調方法(属性)を変えて、強調表示できる。さらに、本実施の形態において、プラスイメージとマイナスイメージの副詞(又は形容詞)を色分けして強調表示できる。
さらに、本実施の形態において、情報処理装置11の文章群受付部1104と文章群引渡部1107をコンパイラ型のプログラム言語で開発し、文字列抽出部1105と文字列加工部1106をインタプリタ型のプログラム言語で開発することにより、以下に示す多大な効果を奏する。つまり、文章のタイプ(一般文章、特許書類、科学文章など)により、強調方法を変更したい、という要求がある一方、文章群の入出力処理(文章群受付部1104と文章群引渡部1107)は変更する必要はない。そのため、文章群受付部1104と文章群引渡部1107をコンパイラ型のプログラム言語で開発し、文字列抽出部1105と文字列加工部1106をインタプリタ型のプログラム言語で開発することにより、テキスト処理の部分(文字列抽出部1105と文字列加工部1106の処理部分)のみを、プログラム修正しては、直ちにテストを行う、スパイラル開発が容易にでき、かつ、インターフェイス部分のソフトウェアの変更が行えず、一度開発した後は、誤ってバグが入り込む余地がなくなる。
また、本実施の形態において、情報処理装置11が実現する処理をプログラムで実現することは好適である。このプログラムは、コンピュータに、1以上の文章を有する文章群を受け付ける文章群受付ステップと、前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す出力文章群引渡ステップを実行させるためのプログラムであって、前記文章群受付ステップと前記出力文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラム、である。
また、上記プログラムにおいて、前記文章群は、Web上のホームページであり、前記文章群受付ステップは、Webブラウザが受信したWeb上のホームページを受け付け、前記出力文章群引渡ステップは、前記Webブラウザに出力文章群を渡す、ことは好適である。
(実施の形態2)
本実施の形態において、複数の文章処理部と文字列属性を対に具備し、ユーザの指示に対応する文章処理部を実行し、文字列属性に対応する文字列に変更された文章群を出力部に渡す態様について説明する。また、本実施の形態において、自動的に文章群のタイプを検出し、文章群タイプに応じた文章処理を実行する態様について説明する。また、文章群のタイプを決定するアルゴリズムの例として、機械学習による例、およびルールを用いる例などについて説明する。
まず、上記処理を行う情報処理装置を含む情報処理システムについて説明する。図21は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置211と、1以上のサーバ装置12を具備する。情報処理装置211は、ユーザが使用する情報端末であり、いわゆるパーソナルコンピュータ、ノートパソコン、PDA、携帯電話等、文章群を表示できる装置であれば良い。情報処理装置211とサーバ装置12は、例えば、インターネット等の通信網により、相互に通信可能である。
情報処理装置211は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、第一文字列抽出部21101、第二文字列抽出部21102、文字列属性格納部21103、文字列加工部21104、文章群引渡部1107、出力部21105、判断情報格納部21106、文章群タイプ決定部21107、制御部21108を具備する。
文章群タイプ決定部21107は、文章群属性情報取得手段211071、タイプ情報決定手段211072を具備する。なお、文章群タイプ決定部21107が、文章群属性情報取得手段211071とタイプ情報決定手段211072を具備する場合は、文章群タイプ決定部21107が機械学習のアルゴリズムにより、タイプを決定する場合である。
第一文字列抽出部21101は、受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する。第一文字列抽出部21101は、通常、MPUやメモリ等から実現され得る。第一文字列抽出部21101の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二文字列抽出部21102は、受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する。第二文字列抽出部21102は、通常、MPUやメモリ等から実現され得る。第二文字列抽出部21102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
また、第一文字列抽出部21101と第二文字列抽出部21102は、異なるタイプの文字列を抽出する。例えば、第一文字列抽出部21101は、上述したタイトルに含まれる用語を文章群から抽出する。また、第二文字列抽出部21102は、上述した特許書類の請求項に含まれる用語を、特許書類から抽出する。さらに、情報処理装置211は、図示しない第三文字列抽出部、第四文字列抽出部、・・・、第n文字列抽出部を具備しても良い。かかる場合、第一文字列抽出部から第n文字列抽出部は、異なるタイプの文字列を抽出する。例えば、第三文字列抽出部は、上述した科学記号を抽出する処理を行う。
文字列属性格納部21103は、第一文字列抽出部21101または第二文字列抽出部21102に対応付けて、それぞれ文字列属性を格納している。「第一文字列抽出部21101に対応付ける」とは、「第一文字列抽出部21101」を識別する情報と対応付ける、ということでも良い。「第一文字列抽出部21101」や「第二文字列抽出部21102」がプログラムで実現されている場合、「第一文字列抽出部21101に対応付ける」とは、そのプログラムを識別する情報(プログラム名や関数名やIDなど)と対応付ける、ということでも良い。文字列属性とは、文字列の色、フォント、背景色、サイズ、網掛けの有無、下線の有無、その他の装飾の有無などの文字列(1つの文字も含む)に関する情報である。文字列属性格納部21103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
文字列加工部21104は、第一文字列抽出部21101または第二文字列抽出部21102で、それぞれ抽出した1以上の各文字列に対して、第一文字列抽出部21101または第二文字列抽出部21102に対応付けて格納されている文字列属性に従った文字列に加工を行う。文字列の加工とは、文字列の属性を、取得した文字列属性に設定することである。文字列属性の設定方法は、文章群の種類(HTML文書、特定のワープロソフトの文書など)により異なる。文章群の種類がHTML文書の場合、HTML文書は、タグやタグの属性(例えば、「col=red」など)として、文字列の定義の箇所に挿入する。文字列加工部21104は、文章群の一部の文字列を加工し、取得した新しい文章群を文章群引渡部1107に渡す。文字列加工部21104は、通常、MPUやメモリ等から実現され得る。文字列加工部21104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部21105は、文章群引渡部1107から受け付けた出力文章群を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部21105は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部21105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
判断情報格納部21106は、文章群のタイプを判断するための情報である判断情報を格納している。判断情報は、例えば、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データである。判断情報は、通常、2以上の文章群教師データを有する。また、判断情報は、文章群のタイプを判断するためのルールでも良い。ルールとは、例えば、特許書類であることを判断するための文字列(例えば、墨付き括弧で囲まれた[書類名]や、墨付き括弧など)や、ホームページであることを識別するためのHTML特有のタグ(例えば、<html>や<title>など)や、科学記号を含む文章群であることを識別する文字列(例えば、上付きのイオン(+)(−)など)である。また、ルールとは、例えば、図18や図20に示した情報でも良い。判断情報格納部21106は、通常、MPUやメモリ等から実現され得る。判断情報格納部21106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
文章群タイプ決定部21107は、判断情報を用いて、文章群受付部1104が受け付けた文章群のタイプを決定する。文章群タイプ決定部21107は、例えば、文章群受付部1104が受け付けた文章群から、当該文章群の文章群属性情報を取得し、かつ、2以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、先に取得した文章群属性情報を用いて、文章群受付部1104が受け付けた文章群のタイプを決定しても良い。なお、文章群教師データは、判断情報格納部21106に格納されている。つまり、文章群タイプ決定部21107は、例えば、機械学習のアルゴリズムを用いて、文章群受付部1104が受け付けた文章群のタイプを決定しても良い。具体的な機械学習のアルゴリズムは後述する。文章群タイプ決定部21107は、通常、MPUやメモリ等から実現され得る。文章群タイプ決定部21107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
文章群属性情報取得手段211071は、文章群受付部1104が受け付けた文章群から、当該文章群の文章群属性情報を取得する。文章群属性情報とは、例えば、タグ(<>で囲まれた文字列)の数や、特定のタグ(例えば、<html>)の有無、特定の用語(例えば、[請求項]や[書類名])の数や有無、文章群のワード数、言語など、文章群から取得できる情報であれば何でも良い。文章群から、タグ(<>で囲まれた文字列)の数や、特定のタグ(例えば、<html>)の有無、特定の用語の数や有無、文章群のワード数、言語などを取得する処理は公知技術であるので、詳細な説明を省略する。文章群属性情報取得手段211071は、通常、MPUやメモリ等から実現され得る。文章群属性情報取得手段211071の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
タイプ情報決定手段211072は、文章群属性情報取得手段211071が取得した文章群属性情報と、判断情報格納部21106の2以上の文章群教師データを用いて、サポートベクターマシンなどの機械学習のアルゴリズムにより、文章群受付部1104が受け付けた文章群のタイプを決定する。タイプ情報決定手段は、通常、MPUやメモリ等から実現され得る。タイプ情報決定手段211072の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
制御部21108は、文章群タイプ決定部21107が決定した文章群のタイプに対応した第一文字列抽出部21101または第二文字列抽出部21102に対して動作の実行を指示する。なお、情報処理装置211が3以上の文字列抽出部を有する場合、制御部21108は、文章群タイプ決定部21107が決定した文章群のタイプに対応して、3以上の文字列抽出部から一の文字列抽出部を選択する。なお、制御部21108は、2以上の文字列抽出部を選択しても良い。かかる場合、科学記号を含む特許書類に対して、上述した両方の機能(特許書類の強調表示と科学記号の強調表示)を有する適切な協調表示ができる。制御部21108は、通常、MPUやメモリ等から実現され得る。制御部21108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置211の動作について図22のフローチャートを用いて説明する。図22のフローチャートにおいて、図3のフローチャートと同様のステップについて、説明を省略する。
(ステップS2201)文章群タイプ決定部21107は、ステップS304で受け付けた文章群のタイプを決定する。文章群のタイプを決定する処理について、図23のフローチャートを用いて説明する。
(ステップS2202)制御部21108は、ステップS2201で決定された文章群のタイプに対応した文字列抽出部(ここでは、第一文字列抽出部21101、または第二文字列抽出部21102のうちのいずれか)を選択する。制御部21108は、例えば、ステップS2201で決定された文章群のタイプに対応した文字列抽出部のプログラム(または関数)を呼び出す。
なお、図22のフローチャートにおいて選択対象の文字列抽出部は3以上でも良い。
次に、ステップS2201の文章群のタイプ決定処理の第一の例について、図23のフローチャートを用いて説明する。文章群のタイプ決定処理の第一の例は、あるルールに基づく例である。あるルールとは、文字列のパターンの例とする。ここで、文章群タイプ決定部21107は、予め3つのルールを格納している、とする。3つのルールとは、(1)HTML文書であることを示すルールであり、タグ「<html>」が存在すること、およびタグ("<(半角文字)"と">(半角文字)"で囲まれている文字列)の数が所定数以上、という第一のルール、(2)特許書類であることを示すルールであり、墨付き括弧のタグ[書類名]が存在すること、および墨付き括弧の数が所定数以上、という第二のルール、(3)科学文書であることを示すルールであり、図18に示す文字列が所定数以上出現する、という第三のルール、であるとする。かかる場合のタイプ決定処理について説明する。
(ステップS2301)文章群タイプ決定部21107は、文章群を検索し、タグ<html>が存在するか否かを判断する。タグ<html>が存在すればステップS2302に行き、タグ<html>が存在しなければステップS2305に行く。
(ステップS2302)文章群タイプ決定部21107は、文章群中のタグ(<・・・>)の数を取得する。
(ステップS2303)文章群タイプ決定部21107は、ステップS2302で取得したタグの数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップS2304に行き、所定の閾値以上でなければステップS2305に行く。
(ステップS2304)文章群タイプ決定部21107は、文章群のタイプをタイプ1(HTML文書)である、と決定する。具体的には、文章群タイプ決定部21107は、所定のバッファにタイプを識別する情報「1」を代入する。上位処理にリターンする。
(ステップS2305)文章群タイプ決定部21107は、文章群を検索し、墨付き括弧に囲まれた書類名の文字列([書類名])が存在するか否かを判断する。[書類名]が存在すればステップS2306に行き、[書類名]が存在しなければステップS2309に行く。
(ステップS2306)文章群タイプ決定部21107は、文章群中の墨付き括弧の数を取得する。
(ステップS2307)文章群タイプ決定部21107は、ステップS2306で取得した墨付き括弧の数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップS2308に行き、所定の閾値以上でなければステップS2309に行く。
(ステップS2308)文章群タイプ決定部21107は、文章群のタイプをタイプ2(特許文書)である、と決定する。具体的には、文章群タイプ決定部21107は、所定のバッファにタイプを識別する情報「2」を代入する。上位処理にリターンする。
(ステップS2309)文章群タイプ決定部21107は、図18に登録されているような科学記号の文字列の出現する回数を取得する。
(ステップS2310)文章群タイプ決定部21107は、ステップS2309で取得した文字列の数が、所定の閾値以上であるか否かを判断する。所定の閾値以上であればステップS2311に行き、所定の閾値以上でなければステップS2312に行く。
(ステップS2311)文章群タイプ決定部21107は、文章群のタイプをタイプ3(科学文書)である、と決定する。具体的には、文章群タイプ決定部21107は、所定のバッファにタイプを識別する情報「3」を代入する。上位処理にリターンする。
(ステップS2312)文章群タイプ決定部21107は、文章群のタイプをその他のタイプ(例えば、タイプ4)と決定する。具体的には、文章群タイプ決定部21107は、所定のバッファにタイプを識別する情報「4」を代入する。上位処理にリターンする。
なお、図23のフローチャートにおいて、予め決められたルールに基づいて、文章群のタイプをタイプ1(HTML文書)、タイプ2(特許文書)、タイプ3(科学文書)のいずれかに決定した。しかし、文章群タイプ決定部21107は、他のルールに基づいて文章群タイプを決定しても良い。また、文章群タイプ決定部21107は、HTML文書、特許文書、科学文書以外のタイプに文章群のタイプを決定しても良い。
例えば、以下のようなルールに基づく自動判定方法がある。判断情報格納部21106は、図24に示す判断情報管理表を格納している。図24の判断情報管理表は、文章群のタイプを判断するためのルールの情報であり、「ID」「特有表現」「出現情報」「文章群タイプ」「優先度」の属性を有するレコードを1以上、格納している。「ID」は、表のレコード管理のための情報である。「特有表現」は、文章群タイプの文章群特有の表現を記述する。「出現情報」は、「特有表現」で抽出される表現(用語など)の出現に関する条件を示す情報であり、所定の閾値を用いた情報(n1個以上など)でも良いし、出現割合(60%以上など)でも良い。出現割合とは、例えば、出現密度とも言い「出現数/その文書の総文字数」で表される。「文章群タイプ」は文章群のタイプ名である。「優先度」は、判断情報を適用する優先順位を示す。つまり、文章群タイプ決定部21107は、優先度「1」の判断情報から順に、文章群に対して適用し、「特有表現」「出現情報」で示される条件に初めて合致した文章群タイプを、入力の文章群の文章群タイプと決定する。
図24において、「ID=1」のレコードは、「請求項」や「書類名」などの特許特有の表現が「n1」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「特許文書」と決定する、ことを示す。
そして、図24において、「ID=2」のレコードは、墨付きの左括弧に用語「請求項」が連続する表現などの、特許特有の表現が「n2」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「特許文書」と決定する、ことを示す。
図24において、「ID=3」のレコードは、原子記号や分子の表現など原子分子関係の表現(H,Heなど)が「n3」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「特許文書」と決定する、ことを示す。
図24において、「ID=4」のレコードは、意見文特有の表現「と思う」「だろう」「かな」が「n4」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「意見文書」と決定する、ことを示す。
図24において、「ID=5」のレコードは、箇条書き表現が「n5」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「箇条書文書」と決定する、ことを示す。箇条書き表現は、例えば、入力の文章群がHTMLテキストであれば、箇条書き用のHTMLタグ(<ul>や<li>など)である。また、入力の文章群がTeXであれば、\itemや\begin{itemize}などである。さらに、文章群タイプ決定部21107は、「・」で始まる文が連続している、数字から始まる文が連続していることを検出し、箇条書の特定をしてもよい。図24において「$箇条書表現」は、箇条書きの表現を示す変数である。
図24において、「ID=6」のレコードは、人名が「n6」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「人名文書」と決定する、ことを示す。
図24において、「ID=7」のレコードは、地名が「n7」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「地名文書」と決定する、ことを示す。
ここで、文章群タイプ決定部21107は、例えば、以下のように人名や地名などの固有表現を抽出する。つまり、機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(1)参照)。
参考文献(1):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B−???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、B−LOCATIONは、地名という固有表現の始まりを意味しており、B−PERSONは、人名という固有表現の始まりを意味している。また、I−???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−Bは、日本という単語の先頭を意味し、名詞−Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
なお、例えば、上記の参考文献(1)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「B−PERSON」等)を利用している。
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。
固有表現の抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(2)参照)。
参考文献(2):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2,2000
また、例えば、以下の参考文献(3)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
参考文献(3):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
そして、固有表現(人名や地名)を抽出した後、当該固有表現を用いて、文章群タイプ決定部21107は、図24の「ID=6」や「ID=7」に合致するか否かを判断し、文章群のタイプ情報を決定する。
なお、文章群タイプ「人名文書」「地名文書」の決定方法は他の方法でも良いことは言うまでもない。例えば、判断情報格納部21106は、人名辞書や地名辞書を保持しており、かかる辞書を検索し、文章群タイプ決定部21107は、入力の文章群における人名や地名の数をカウントし、上記の出現情報を適用し、文章群タイプを決定しても良い。
また、図24において、「ID=8」のレコードは、子供向けのテキストに多く出現しそうな表現「キッズ」や「子供」などが「n8」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「子供文書」と決定する、ことを示す。
図24において、「ID=9」のレコードは、ひらがなの割合が「60」%以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「子供文書」と決定する、ことを示す。
さらに、図24において、「ID=10」のレコードは、作品名の数が、「n9」個以上、入力された文書(文章群)に存在すれば、文章群タイプ決定部21107は、文章群タイプを「作品名文書」と決定する、ことを示す。なお、文章群タイプ決定部21107は、例えば、上述した固有表現抽出技術を使って作品名を抽出する。また、例えば、文章群タイプ決定部21107は、作品名の辞書(判断情報格納部21106が保持)を検索し、文章群タイプ決定部21107は、入力の文章群における作品名の数をカウントし、上記の出現情報を適用し、文章群タイプを決定しても良い。
以上のように、文章群タイプ決定部21107は、ルールに基づいて、入力された文章群のタイプを自動的に決定する。そして、制御部21108は、決定された文章群のタイプに対応した文字列抽出部を選択する。
文章群のタイプが「特許文書」「HTML文書」「科学文書」の場合については、既に説明した。
文章群のタイプが「意見文書」の場合は、既に説明したプラスイメージとマイナスイメージの副詞(又は形容詞)を色分けして強調表示する処理部が選択される。
文章群のタイプが「箇条書文書」の場合は、後述する箇条書きの順序を変更する処理を行う処理部が選択される。
文章群のタイプが「人名文書」や「地名文書」の場合は、後述する出現頻度に応じた文字列装飾を行う処理部が選択される。
文章群のタイプが「子供文書」の場合は、後述する漢字に読み仮名を挿入する処理を行う処理部が選択される。
文章群のタイプが「作品名文書」の場合は、後述する著者の情報を挿入する処理部が選択される。
また、文章群タイプ決定部21107は、「優先度」の情報を用いて、複数の判断情報が適用され得る場合は優先順位の高いものを使うことが好適である。
さらに、ユーザは、図24の「n1」から「n9」などの出現情報や、優先度のカスタマイズができることは好適である。
また、例えば、文章群タイプ決定部21107は、以下のようなルールに基づく自動判定方法により、文章群タイプを決定しても良い。ここでの方法は、人手でルールを作って固有表現を取り出し、取り出した固有表現から文章群タイプを決定する、という方法である。判断情報格納部21106は、例えば、「名詞+「さん」→人名」「名詞+「首相」→人名」「名詞+「町」→地名」「名詞+「市」→地名」などの判断情報を保持している。上記の「名詞+「さん」→人名」は、名詞に続いて「さん」が出現した場合、その名詞を「人名」として認識することを示す。そして、文章群タイプ決定部21107は、かかる判断情報を用いて、文章群から人名や地名を抽出し、例えば、人名や地名が所定の閾値以上存在する場合に、当該文章群を人名文書、地名文書と決定する。
上記は、ルールによる文章群の分類方法を示したが、以下の得点による方法でもよい。つまり、判断情報格納部21106は、図25に示すような得点管理表を保持している。得点管理表は、「ID」「文章群タイプ」「特有表現」「得点」の属性を有するレコードを1以上保持している。文章群タイプ決定部21107は、上記示した文章群タイプごとの特徴的な表現が出現した場合に、その表現ごとに得点を定めておき、その得点を文章群タイプに加算して、その合計点が最も高いものを、求める文章群タイプとする。なお、得点を用いる場合は閾値の得点を決めておき、「タイトル」を含む文書の場合、および閾値の得点以上の分類が一つもない場合に文章群タイプを「タイトル強調文書」と決定し、前述したタイトル強調を行う処理部が選択される。なお、「タイトル強調文書」は、ここでは、「HTML文書」と同様の文章群タイプである。
次に、ステップS2201の文章群のタイプ決定処理の第二の例について説明する。第二の例は、機械学習アルゴリズムを用いて文章群のタイプを決定する方法である。
機械学習の手法は、問題−解の組のセット(これは上述した判断情報の一例である)を多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(4)〜参考文献(6)参照)。
参考文献(4):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(5):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(6):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
機械学習アルゴリズムを動作させるために、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。なお、素性とは、上述した文章群属性情報と同じである。
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。なお、ここで、「解」とは、文章群タイプのことである。また、後述する「分類」も、ここでの文章群タイプのことである。
文章群タイプ決定部21107は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数式6で与えられる。
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi|a)は、それぞれ教師データ(判断情報と同意義)から推定された確率であって、分類aの出現確率、分類aのときに素性fiを持つ確率を意味する。P(fi|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数式6の2行目の式の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数式7を用いてスームージングを行ったものを用いる。
ただし、freq(fi,a)は、素性fiを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。
決定リスト方法では、あらかじめ設定しておいた素性fj(∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の数式8によって与えられる。
ただし、fmaxは以下の数式9によって与えられる。
また、P(ai|fj)(ここでPはpの上部にチルダ)は、素性fjを文脈に持つ場合の分類aiの出現の割合である。
最大エントロピー法は、あらかじめ設定しておいた素性fj(1≦j≦k)の集合をFとするとき、以下の所定の条件式(数式10)を満足しながらエントロピーを意味する式(数式11)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。
ただし、A、Bは分類と文脈の集合を意味し、gj(a,b)は文脈bに素性fjがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai|fj)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。
数式10は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化)を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(7)および参考文献(8)に記載されている。
参考文献(8):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(9):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
図26にサポートベクトルマシン法のマージン最大化の概念を示す。図26において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図26(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図26(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン)が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図26(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入)がなされたものが用いられる。
この拡張された方法は、以下の識別関数(f(x))を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
ただし、xは識別したい事例の文脈(素性の集合)を、xiとyj(i=1,…,l,yj∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise)
であり、また、各αiは上記数式12の式(13−2)と式(13−3)の制約のもと、式(13−1)を最大にする場合のものである。
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では、例えば、以下の多項式(数式14)のものを用いる。
数式13、数式14において、C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトルと呼ばれ、通常、数式12の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(9)および参考文献(10)に記載されている。
参考文献(10):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(11):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aistnara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき問題が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある解くべき問題が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その解くべき問題の分類先は、aと推定する。
タイプ情報決定手段211072が推定する、解くべき問題についての、どのような解(分類先)になりやすいかの度合いの求め方は、タイプ情報決定手段211072が機械学習の手法として用いる様々な方法によって異なる。
例えば、本発明の実施の形態において、タイプ情報決定手段211072が、機械学習の手法としてk近傍法を用いる場合、タイプ情報決定手段211072は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として判断情報格納部21106に記憶しておく。
そして、タイプ情報決定手段211072は、文章群属性情報取得手段211071によって解くべき問題の素性(文章群属性情報)が抽出されたときに、判断情報格納部21106において定義された類似度と事例を参照して、文章群属性情報取得手段211071によって抽出された解くべき問題の素性について、その解くべき問題の素性の類似度が高い順にk個の事例を判断情報格納部21106の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、解くべき問題の分類先(解)として推定する。すなわち、タイプ情報決定手段211072では、解くべき問題についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数とする。
また、機械学習手法として、シンプルベイズ法を用いる場合には、教師データの事例について、前記事例の解と素性の集合との組を判断情報として判断情報格納部21106に記憶する。そして、タイプ情報決定手段211072は、文章群属性情報取得手段211071によって解くべき問題の素性が抽出されたときに、判断情報格納部21106の判断情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて文章群属性情報取得手段211071で取得した解くべき問題の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その解くべき問題の素性の分類(解)と推定する。すなわち、タイプ情報決定手段211072では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。
また、機械学習手法として決定リスト法を用いる場合には、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを、予め、何らかの手段により、判断情報格納部21106に記憶させる。そして、文章群属性情報取得手段211071によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段211072は、判断情報格納部21106のリストの優先順位の高い順に、抽出された解くべき問題の素性と規則の素性とを比較し、素性が一致した規則の分類先をその解くべき問題の分類先(解)として推定する。
また、機械学習手法として最大エントロピー法を使用する場合には、教師データの事例から解となりうる分類を特定し、所定の条件式を満足し、かつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて、判断情報格納部21106に記憶する。そして、文章群属性情報取得手段211071によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段211072は、判断情報格納部21106の確率分布を利用して、抽出された解くべき問題の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその解くべき問題の解と推定する。すなわち、タイプ情報決定手段211072では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率とする。
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて判断情報格納部21106に記憶する。そして、文章群属性情報取得手段211071によって解くべき問題の素性が抽出されたときに、タイプ情報決定手段211072は、判断情報格納部21106の超平面を利用して、解くべき問題の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その解くべき問題の解と推定する。すなわち、タイプ情報決定手段211072では、解くべき問題の素性の集合の場合にある解となりやすさの度合いを、分離平面からのその解くべき問題の事例への距離の大きさとする。
以下に、さらに具体的な例を用いて、教師データあり機械学習に基づいて、文章群タイプを決定する方法について説明する。
判断情報格納部21106は、1以上の素性の集合と、文章群タイプ(タイプ情報)の対である判断情報を1以上格納している。ここで、素性は、例えば、文書に出現する単語、文書に出現する文字列、文書に出現する文末の文字列、文書に出現するあらかじめ定めた特徴的な表現、文書に出現するあらかじめ定めた特徴的な表現の出現頻度、文書に出現するあらかじめ定めた特徴的な表現の出現密度などのうちの1以上の情報である。例えば、判断情報格納部21106は、図27に示すような1以上の文書群教師データを格納している。
そして、文章群受付部1104が入力の文章群を受け付けた場合、文章群タイプ決定部21107の文章群属性情報取得手段211071は、当該文章群から予め決められた素性(文章群属性情報)を取得し、タイプ情報決定手段211072は、上記で説明した機械学習のアルゴリズムにより、図27の文書群教師データを用いて、当該文章群のタイプ情報を決定する。そして、情報処理装置211は、決定したタイプ情報に応じた文字列抽出部を呼び出し、文字列加工部21104は、決定したタイプ情報に応じた文字列の加工を行う。加工の方法は、本明細書で述べた種々の方法があり、その他、本明細書で述べていない加工を行っても良い。
また、例えば、文章群属性情報取得手段211071と同様の機能を有する図示しない学習手段は、学習対象の文章群学習データ「「Aと思います.」→「意見文書(副詞強調)」」、「「Bと思います.」→「意見文書(副詞強調)」」「「Cだった.」→「タイトル強調」」を読み込んで、処理し、以下に示す判断情報を得る、とする。
つまり、図示しない学習手段は、「「Aと思います.」→「意見文書(副詞強調)」」から素性「思います.」「います.」を取得し、素性「思います.」「います.」とタイプ情報「意見文書(副詞強調)」を得て、判断情報格納部21106に蓄積する。同様に、図示しない学習手段は、「「Bと思います.」→「意見文書(副詞強調)」」から素性「思います.」「います.」を取得し、素性「思います.」「います.」とタイプ情報「意見文書(副詞強調)」を得て、判断情報格納部21106に蓄積する。同様に、図示しない学習手段は、「「Cだった.」→「タイトル強調」」から素性「だった.」「った.」を取得し、素性「だった.」「った.」とタイプ情報「タイトル強調」を得て、判断情報格納部21106に蓄積する。以上より、「思います.」という素性があると「意見文書(副詞強調)」であり、そうでない場合は、「タイトル強調」である、という学習をしたこととなる。
そこで、新しい文として「Dした.」という文章群が入力されると、文章群属性情報取得手段211071は、素性「した.」「た.」を取得し、上記の機械学習のいずれかのアルゴリズムにより、「思います.」の素性がないため、タイプ情報決定手段211072は、文章群タイプ「タイトル強調」と判断する。
そして、制御部21108は、決定された文章群のタイプに対応した文字列抽出部を選択する。その結果、文章群タイプに対応した文字列の処理が可能となる。
以上、本実施の形態によれば、自動的に、またはユーザの選択により、文章タイプを決定し、文章タイプに応じた文章処理(テキスト強調表示)ができる。
なお、本実施の形態によれば、自動的に文章のタイプを決定したが、ユーザが選択しても良い。つまり、ユーザは、動作させる文字列抽出部(第一文字列抽出部21101、第二文字列抽出部21102などのうちの1以上の文字列抽出部)を、マウス等の入力手段を用いて選択し、当該選択された文字列抽出部を起動しても良い。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性に従った文字列に加工を行う文字列加工部と、前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。
また、上記プログラムは、コンピュータを、記憶媒体に格納されている判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部としてさらに機能させるためのプログラム、であることは好適である。
また、上記プログラムにおける、前記記憶媒体に格納されている判断情報は、文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である2以上の文章群教師データであり、前記文章群タイプ決定部は、前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、前記2以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備するものとして、コンピュータを、機能させるためのプログラム、であることは好適である。
(実施の形態3)
本実施の形態において、文章群から用語辞書に存在する用語を検索し、当該用語に対応する文字列を、文書群中の用語に隣接する位置に、括弧付きまたは括弧なしで挿入する情報処理装置について説明する。用語辞書が、漢字列と漢字の読み仮名の対の情報である場合、文章群中の漢字列に読み仮名が自動的に挿入される。用語辞書が、書籍名と書籍の属性を示す属性情報である場合、文章群中の書籍名に、著者名などの書籍の関連情報が自動的に挿入される。
図28は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置281と、1以上のサーバ装置12を具備する。
情報処理装置281は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、変換用語情報格納部28101、補足用語挿入部28102、文章群引渡部28103、出力部21105を具備する。
補足用語挿入部28102は、文字列抽出手段281021、文字列加工手段281022を具備する。
変換用語情報格納部28101は、用語と補足用語の対である変換用語情報を格納している。補足用語とは、用語に対して補足する用語である。変換用語情報は、例えば、漢字列と漢字の読み仮名の対の情報(例えば、漢字列「齟齬」、読み仮名「そご」など)である。変換用語情報は、例えば、書籍名と書籍の属性を示す属性情報である。属性情報は、例えば、著者名、出版年、出版社、出版の版数などである。変換用語情報格納部28101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
補足用語挿入部28102は、受け付けた文章群に対して、変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する。補足用語は、変換用語情報格納部28101から読み出される。補足用語挿入部28102は、通常、MPUやメモリ等から実現され得る。補足用語挿入部28102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
補足用語挿入部28102を構成する文字列抽出手段281021は、受け付けた文章群に対して、変換用語情報が有する用語を検索し、抽出する。
文字列加工手段281022は、文字列抽出手段281021が検索した用語と対になる補足用語を変換用語情報格納部28101から読み出し、当該補足用語を、文字列抽出手段281021が検索した用語に隣接する位置に、括弧付きまたは括弧なしで挿入する。隣接する位置とは、前、後ろ、上、下など、問わない。文字列加工手段281022は、出力する文章群を構成し、メモリ上に配置する。
なお、補足用語挿入部28102は、インタプリタ型のプログラム言語で実現されていることが好適である。一方、文章群受付部1104、文章群引渡部28103は、コンパイル型のプログラム言語で実現されていることが好適である。
文章群引渡部28103は、補足用語挿入部28102が挿入した補足用語を含む出力文章群を、出力部21105に渡す。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。文章群引渡部28103は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。文章群引渡部28103は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、情報処理装置281の動作について図29のフローチャートを用いて説明する。
(ステップS2901)文字列抽出手段281021は、カウントiに1を代入する。
(ステップS2902)文字列抽出手段281021は、i番目の用語が変換用語情報格納部28101に存在するか否かを判断する。i番目の用語が存在すればステップS2903に行き、i番目の用語が存在しなければ処理を終了する。
(ステップS2903)文字列抽出手段281021は、変換用語情報格納部28101から、i番目の用語を取得し、メモリ上に配置する。
(ステップS2904)文字列抽出手段281021は、カウントjに0を代入する。
(ステップS2905)文字列抽出手段281021は、(j+i番目の用語の文字列長−1)byte目が文章群の終端であるか否か(例えば、EOFであるか否か)を判断する。文章群の終端であればステップS2913に行き、文章群の終端でなければステップS2906に行く。
(ステップS2906)文字列抽出手段281021は、jbyte目からi番目の用語の文字列長文の文字列を取得し、メモリ上に配置する。
(ステップS2907)文字列抽出手段281021は、ステップS2906で取得した文字列と、i番目の用語が一致するか否かを判断する。両者が一致すればステップS2908に行き、一致しなければステップS2912に行く。
(ステップS2908)文字列加工手段281022は、i番目の用語に対応する補足用語を変換用語情報格納部28101から読み出し、メモリ上に配置する。
(ステップS2909)文字列加工手段281022は、ステップS2908で読み出した補足用語を用いて、挿入する補足用語を構成する。挿入する補足用語とは、読み出した補足用語(例えば、ABC)に括弧「()」を付与した文字列(例えば、(ABC))である。なお、挿入する補足用語は、ステップS2908で読み出した文字列そのままでも良い。かかる場合、ステップS2909における処理は不要である。
(ステップS2910)文字列加工手段281022は、ステップS2908で取得した補足用語、またはステップS2909で構成した補足用語を、i番目の用語に隣接する位置(文章群中)に挿入する。
(ステップS2911)文字列抽出手段281021は、カウントjに、「j+i番目の用語の文字列長」を代入する。ステップS2905に戻る。
(ステップS2912)文字列抽出手段281021は、カウントjを1、インクリメントする。ステップS2905に戻る。
(ステップS2913)文字列抽出手段281021は、カウントiを1、インクリメントする。ステップS2902に戻る。
以下、本実施の形態における情報処理装置281を含む情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図1である。
(具体例1)
まず、第一の具体例について説明する。第一の具体例は、漢字列に対して、漢字の読み仮名を挿入する例である。
図30は、変換用語情報格納部28101の漢字読み仮名辞書である。漢字読み仮名辞書は、「漢字列」「読み仮名」の対の情報を複数、有する。
かかる状況により、ユーザは、情報処理装置281にインストールされているソフトウェアであり、指示受付部1101、指示送信部1102、文章群受信部1103、および出力部21105を具備するソフトウェアであるWebブラウザを操作し、情報処理装置281の文章群受信部1103は、一のサーバ装置12から、図31に示す文章群を受信した、とする。
次に、文章群受付部1104は、文章群受信部1103が受信した図31の文書群を受け付ける。そして、補足用語挿入部28102は、図31の文書群に対して、図30の漢字読み仮名辞書中の各漢字列が存在するか否かの検索をかける。
そして、補足用語挿入部28102は、図30の漢字読み仮名辞書中の漢字列である「簡便」が、図31の文書群に存在することを検出する。
次に、漢字列「簡便」に対する読み仮名「かんべん」を図30の漢字読み仮名辞書から読み出す。そして、補足用語挿入部28102は、読み仮名「かんべん」に対して、括弧を付与し、挿入する用語「(かんべん)」を構成する。
次に、補足用語挿入部28102は、「(かんべん)」を、文章群中の漢字列「簡便」の隣接する位置(ここでは、上部)に配置する。
同様に、補足用語挿入部28102は、漢字列「閲覧」と「環境」に対する読み仮名「えつらん」「かんきょう」を漢字読み仮名辞書から読み出す。そして、補足用語挿入部28102は、各読み仮名「えつらん」「かんきょう」に対して、括弧を付与し、挿入する用語「(えつらん)」「(かんきょう)」を構成する。
次に、補足用語挿入部28102は、各挿入する用語「(えつらん)」「(かんきょう)」を、文章群中の各漢字列「閲覧」と「環境」の隣接する位置(ここでは、上部)に配置する。
その結果、補足用語挿入部28102は、出力する文章群を得る。そして、文章群引渡部28103は、補足用語挿入部28102から出力する文章群を受け取り、出力部21105に渡す。次に、出力部21105は、図32に示すように、出力文章群を出力する。
なお、本具体例において、挿入する補足用語の文字色やフォント等の文字属性を、文章群中の文字色やフォント等の文字属性と比べて変更しても良い。また、本具体例において、検索された用語(ここでは、漢字列)の文字色やフォント等の文字属性を変更しても良い。
また、図31の文書群は、サーバ装置12に格納されている、いわゆるホームページであることは好適である。
本具体例における機能は、子供たちが、インターネットを用いて、ホームページを検索し、種々のことを調べることに寄与する。つまり、本具体例における機能は、教育を促進するものである。
なお、本具体例において、図示しない文章群タイプ決定手段が、所定の条件に合致する場合に、子供向けの文章群であると判断し、自動的に上述した漢字にひらがなを挿入する処理を文章群に対して行っても良い。ここで、
所定の条件とは、文章群中の文字列の漢字の割合が一定以下であること、予め決められた用語(例えば、「KID」「キッズ」「こども」など)が存在するか否か、予め決められた用語の出現数である。つまり、文章群タイプ決定手段は、文章群中の文字列の漢字の割合や、予め決められた用語の出現数を算出し、当該割合や出現数を用いて(一定以下の割合や、一定以上の出現数の場合)、当該文章群を、子供向けの文章群であると判断しても良い。
(具体例2)
次に、第二の具体例について説明する。第二の具体例は、書籍名に対して、書籍の属性を示す属性情報(例えば、著者名)を挿入する例である。
図33は、変換用語情報格納部28101の書籍情報辞書である。書籍情報辞書は、ここでは「書籍名」「著者名」の対の情報を複数、有する。なお、書籍情報辞書は、「書籍名」「著者名」以外の出版年や出版社などの情報も有しても良いことは言うまでもない。
かかる状況により、ユーザは、情報処理装置281にインストールされているソフトウェアであり、指示受付部1101、指示送信部1102、文章群受信部1103、および出力部21105を具備するソフトウェアであるWebブラウザを操作し、情報処理装置281の文章群受信部1103は、一のサーバ装置12から、図34に示す文章群を受信した、とする。
次に、文章群受付部1104は、文章群受信部1103が受信した図34の文書群を受け付ける。そして、補足用語挿入部28102は、図34の文書群に対して、図33の書籍情報辞書中の各書籍名が存在するか否かの検索をかける。
そして、補足用語挿入部28102は、図33の書籍情報辞書中の書籍名である「ぼっちゃん」が、図34の文書群に存在することを検出する。
次に、補足用語挿入部28102は、書籍名「ぼっちゃん」に対する著者名「夏目漱石」を図33の書籍情報辞書から読み出す。そして、補足用語挿入部28102は、著者名「夏目漱石」に対して、その直前に「,」その直後に漢字「著」を付与し、挿入する用語「,夏目漱石著」を構成する。
次に、補足用語挿入部28102は、「,夏目漱石著」を、文章群中の書籍名「ぼっちゃん」の隣接する位置(ここでは、直後)に配置する。また、補足用語挿入部28102は、検索した書籍名の文字列「ぼっちゃん」に下線の属性を付与する、とする。
同様に、補足用語挿入部28102は、図33の書籍情報辞書中の書籍名である「蜘蛛の糸」が、図34の文書群に存在することを検出する。
次に、補足用語挿入部28102は、書籍名「蜘蛛の糸」に対する著者名「芥川龍之介」を書籍情報辞書から読み出す。そして、補足用語挿入部28102は、著者名「芥川龍之介」に対して、その直前に「,」その直後に漢字「著」を付与し、挿入する用語「,芥川龍之介著」を構成する。
次に、補足用語挿入部28102は、「,芥川龍之介著」を、文章群中の書籍名「蜘蛛の糸」の隣接する位置(ここでは、直後)に配置する。また、補足用語挿入部28102は、検索した書籍名の文字列「蜘蛛の糸」に下線の属性を付与する、とする。
その結果、補足用語挿入部28102は、出力する文章群を得る。そして、文章群引渡部28103は、補足用語挿入部28102から出力する文章群を受け取り、出力部21105に渡す。次に、出力部21105は、図35に示すように、出力文章群を出力する。
なお、本具体例において、挿入する補足用語の文字色やフォント等の文字属性を、文章群中の文字色やフォント等の文字属性と比べて変更しても良い。また、本具体例において、検索された用語(ここでは、漢字列)の文字色やフォント等の文字属性を変更しても良い。
また、図34の文書群は、サーバ装置12に格納されている、いわゆるホームページであることは好適である。
(具体例3)
次に、第三の具体例について説明する。第二の具体例は、地名、住所に対して、当該地名、住所が示す地点の最寄り駅を挿入する例である。
文字列抽出手段281021は、文章群受信部1103が受け付けた文章群から、地名または住所を抽出する。文字列抽出手段281021は、例えば、地名辞書を持っており、その辞書を参照し、地名を抽出する。また、文字列抽出手段281021は、例えば、住所の特有の表記(都道府県の名称、市の名称、丁目、番、号など)の情報や、地名の情報を保持しており、かかる表記を用いて、住所や地名を抽出しても良い。さらに、文字列抽出手段281021は、上述した固有表現抽出のいずれかの方法を利用して、住所や地名を抽出しても良い。
また、文字列加工手段281022は、例えば、住所や地名、と位置情報(緯度経度)の情報を対で持っており、かつ、駅名と位置情報(緯度経度)の情報を対で持っている、とする。そして、文字列抽出手段281021が抽出した住所や地名から位置情報(緯度経度)を取得し、当該位置情報にもっとも近い位置情報と対になる駅名を取得する。そして、文字列加工手段281022は、住所や地名の後ろに「(駅名)」を挿入する。以上の処理により、文章群中の住所や地名に、最寄り駅の名称が挿入される。
また、例えば、以下のような方法により、地名、住所に対して、当該地名、住所が示す地点の最寄り駅を挿入しても良い。つまり、変換用語情報格納部28101は、地名と最寄り駅の情報を有する変換用語情報や、住所と最寄り駅の情報を有する変換用語情報を格納している。そして、補足用語挿入部28102は、受け付けた文章群に対して、変換用語情報が有する地名または住所を検索し、当該検索した地名または住所に隣接して、当該用語(地名または住所)と対になる最寄り駅を括弧付きまたは括弧なしで挿入する。
以上、本実施の形態によれば、取得した文章群に対して、自動的に必要な情報の補足を行って、読みやすい、または有益な文章群を提供できる。
なお、本実施の形態によれば、補足用語は、漢字に対するひらがな、著書に対する著書の属性、住所に対する最寄り駅であった。しかし、補足用語は、何でも良い。補足用語は、例えば、住所に対する郵便番号などでも良い。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。
(実施の形態4)
本実施の形態において、所定の条件に合致する文字列に対して、強調表示を行うテキスト処理を行う情報処理装置やプログラムにおいて、出現頻度や出現確率の高い用語に関しては、強調表示を行わない態様について説明する。また、ユーザから指示された用語に対して、強調表示を行わない態様についても説明する。
図36は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置361と、1以上のサーバ装置12を具備する。
情報処理装置361は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、文字列抽出部1105、文字列加工部1106、文章群引渡部1107、出力部1108、出現頻度取得部36101、制御部36102を具備する。
出現頻度取得部36101は、文字列抽出部1105が抽出した文字列を用いて、文章群受信部1103が受け付けた文章群または、外部の装置(例えば、1以上のサーバ装置12)に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する。出現頻度とは、出現の度合いを示す情報であり、出現回数でも良いし、出現確率でも良いし、出現する文献(ファイル)数でも良い。出現頻度取得部36101は、通常、MPUやメモリ等から実現され得る。出現頻度取得部36101の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
制御部36102は、出現頻度取得部36101が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する。まず、例えば、制御部36102は、出現頻度取得部36101が取得した出現頻度と、予め格納されている閾値を比較し、例えば、「出現頻度<閾値」である場合、出現頻度が一定の条件を満たすと判断する。そして、制御部36102は、出現頻度が多い文字列の強調表示を実現する文字列の属性値を、他の強調表示ではない文字列の属性値に変更する。また、指示受付部1101がユーザから、強調表示を停止する指示を、ある用語(文字列)に対して受け付けた場合、制御部36102は、当該用語の強調表示を停止する処理(例えば、上記の属性値の変更)を行う。制御部36102は、通常、MPUやメモリ等から実現され得る。制御部36102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
なお、情報処理装置361のうち、文章群受付部1104、および文章群引渡部1107は、コンパイル型のプログラム言語で実現されることが好適であり、文字列抽出部1105、文字列加工部1106、出現頻度取得部36101、および制御部36102は、インタプリタ型のプログラム言語で実現されることが好適である。
次に、情報処理装置361の動作について説明する。情報処理装置361の動作について、図3のフローチャートとは、ステップS305が異なる。ステップS305を、情報処理装置361の動作に改良した動作を、図37のフローチャートを用いて説明する。図37のフローチャートは、ステップS305と同様のステップから開始される。
(ステップS3701)出現頻度取得部36101は、カウンタiに1を代入する。
(ステップS3702)出現頻度取得部36101は、ステップS305で取得した1以上の文字列群の中に、i番目の文字列が存在するか否かを判断する。i番目の文字列が存在すればステップS3703に行き、存在しなければ上位処理にリターンする。
(ステップS3703)出現頻度取得部36101は、i番目の文字列をキーとして、受け付けた文章群または外部の装置を検索する。そして、出現頻度取得部36101は、i番目の文字列の出現頻度を取得する。
(ステップS3704)制御部36102は、出現頻度に関する条件の情報(例えば、出現回数の閾値、出現する文献数の閾値、出現確率(全文字数のうちの出現回数の割合)の閾値など)を読み出す。
(ステップS3705)制御部36102は、ステップS3704で読み出した条件に、ステップS3703で取得した出現頻度が合致するか否かを判断する。合致するとの判断の場合ステップS3706に行き、合致しないとの判断の場合ステップS3707に行く。
(ステップS3706)制御部36102は、ステップS305で取得した1以上の文字列群から、i番目の文字列を削除する。
(ステップS3707)出現頻度取得部36101は、カウンタiを1、インクリメントする。ステップS3702に戻る。
以下、本実施の形態における情報処理装置の具体的な動作について説明する。情報処理装置の概念図は図1である。
(具体例1)
具体例1において、文章群中の出現回数が所定回数以上の用語について、強調表示しない例を説明する。また、ここでは、文章群は特許書類である、とする。
例えば、図13に示す請求項に対して、図14に示す用語が抽出された、とする。そして、出現頻度取得部36101は、図14の下記用語の、特許請求の範囲、特許明細書、要約書を含む特許書類の中での出現回数を算出し、図38の出現頻度管理表を得た、とする。なお、用語の文章群中での出現回数の算出方法は、公知技術である。出現頻度管理表は、図14の表に、「出現回数」を加えたものである。
また、制御部36102は、出現頻度に関する条件の情報(ここでは、「出現回数が閾値「30」より多い」)を読み出す、とする。
次に、制御部36102は、読み出した条件「出現回数が閾値「30」より多い」に、取得した各用語の出現頻度が合致するか否かを判断する。
そして、制御部36102は、図38の表から、条件に合致する用語のレコードを削除し、図39の表を得る。
そして、以降、実施の形態1で説明した動作と同様に、特許書類中の用語「入力手段」「言葉変換手段」「出力手段」「変換装置」「差分」について、強調表示を行う。
(具体例2)
具体例2において、1以上のサーバ装置12の多数のホームページ(文章群の一例)を検索し、出現確率が所定回数以上の用語について、強調表示しない例を説明する。また、ここでは、文章群はいわゆるホームページ(HTMLファイル)である、とする。
かかる状況において、情報処理装置361は、図7に示すような「重要語A」「重要語B」「重要語C」を取得した、とする。そして、「重要語A」「重要語B」「重要語C」をそれぞれキーとして、1以上のサーバ装置12を検索し、各用語の出現確率を取得した、とする。ここで、出現確率の算出方法はいくつかあり、公知技術であるので、詳細な説明を省略する。そして、出現頻度取得部36101は、例えば、「重要語A:出現確率0.000001」「重要語B:出現確率0.003」「重要語C:出現確率0.00002」を得たとする。
次に、制御部36102は、出現頻度に関する条件の情報(ここでは、「出現確率が閾値「0.001」より大きい」)を読み出す、とする。
次に、制御部36102は、読み出した条件「出現確率が閾値「0.001」より大きい」に、取得した各用語の出現頻度が合致するか否かを判断する。ここで、制御部36102は、「重要語B:出現確率0.003」のみ条件に合致する、と判断する。
そして、制御部36102は、「重要語B」の強調表示属性を消去する(または、文字列の属性値をデフォルトの属性値にする)。
そして、以降、実施の形態1で説明した動作と同様に、文章群中の用語「重要語A」「重要語C」について、強調表示を行う(図7における重要語Bのすべての強調表示はなくなる)。
(具体例3)
具体例3において、検索された用語が強調表示されている文章群の表示を、ユーザが見た後、ユーザが、1以上の用語をマウス等の入力手段を用いて指定し、当該指定された用語の強調表示がはずれる(強調表示ではない状態の)態様について説明する。
図13、図15に示すディスプレイに表示された特許書類に対して、ユーザが入力手段(図示しない)を用いて、例えば、「言葉」を指示した、とする。
すると、指示受付部1101は、用語「言葉」を、強調表示しない用語として、受け付ける。なお、ユーザがマウスで「言葉」を指示した場合、指示受付部1101は、マウスで指示された座標値(x,y)を受け付け、座標値(x,y)から用語「言葉」を取得する。
次に、制御部36102は、用語「言葉」の強調表示を停止するように、文字列加工部1106に指示する。
次に、文字列加工部1106は、制御部36102の指示に従って、用語「言葉」を文章群中から検索し、用語「言葉」の文字属性値をデフォルトの属性値(強調表示しない属性値)に変更し、文章群引渡部1107が当該文章群を出力部1108に渡し、出力部1108が文章群を表示する。
以上、本実施の形態によれば、高出現頻度の用語を強調表示しないことにより、真に重要な用語のみ、強調表示できる。その結果、読みやすい文章群をユーザに提示できる。
また、本実施の形態によれば、一度、強調表示された用語に対して、ユーザの指示により強調表示を停止できる。その結果、そのユーザにとって、真に読みやすい文章群をユーザに提示できる。
なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるプログラムであって、コンピュータを、前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部としてさらに機能させ、前記出力部は、前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるプログラム、である。
また、本実施の形態における情報処理装置を実現するソフトウェアは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるプログラムであって、コンピュータを、一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部としてさらに機能させ、前記出力部は、前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるプログラム、である。
(実施の形態5)
本実施の形態において、文章群中の箇条書きされた箇所について、列記する順序を逆転させるテキスト処理を行う情報処理装置等について説明する。また、特定の条件に合致する場合のみ、箇条書きの列記順序を逆転させるテキスト処理を行う情報処理装置等についても説明する。
図38は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置401と、1以上のサーバ装置12を具備する。
情報処理装置401は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、箇条書取得部40101、条件判断部40102、順序逆転部40103、文章群引渡部1107、出力部1108を具備する。
箇条書取得部40101は、受け付けた文章群中の、箇条書きの情報群を識別し、取得する。箇条書取得部40101は、箇条書きを識別するための情報である箇条書情報を保持しており、当該箇条書情報を用いて、文章群を検索し、箇条書きの情報群を識別し、取得する。文章群がHTML文章である場合、箇条書情報は、<ul>と</ul>の組の情報などである。また、文章群がTex文章である場合、箇条書情報は、\begin{itemize}と\end{itemize}の組、および\begin{enumerate}と\end{enumerate}の組、および\begin{description}と\end{description}の組の情報である。また、文章群がテキスト文書の場合、文字「・」と改行の組、および昇順に並ぶ数字と「.」と改行の組の情報である。箇条書情報は、通常、箇条書きの開始を示す情報である箇条書きの開始情報(例えば、<ul>、\begin{itemize}、行頭の"・"や行頭の数字"."など)と、箇条書きの終了を示す情報である箇条書きの終了情報(例えば、</ul>、\end{itemize}、行頭の"・"であり、次行の行頭が"・"でない、という情報や行頭の数字"."であり次行の行頭が数字"."でない、という情報、など)を含む。箇条書取得部40101は、通常、MPUやメモリ等から実現され得る。箇条書取得部40101の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
条件判断部40102は、箇条書取得部40101が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する。所定の条件とは、例えば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」など、である。条件判断部40102は、通常、MPUやメモリ等から実現され得る。条件判断部40102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
順序逆転部40103は、箇条書取得部40101が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する。順序逆転部40103は、条件判断部40102における判断結果が、条件に合致するとの判断の場合のみ、箇条書取得部40101が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する、ことは好適である。なお、順序逆転部40103は、条件判断部40102の判断結果によらずに、常に、箇条書取得部40101が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得しても良い。順序逆転部40103は、箇条書きの情報群の箇条書きの項目を逆転させた文章群を取得し、文章群引渡部1107に渡す。順序逆転部40103は、通常、MPUやメモリ等から実現され得る。順序逆転部40103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置401の動作について図41、図42のフローチャートを用いて説明する。図41のフローチャートにおいて、図3のフローチャートと同様のステップについて、説明を省略する。
(ステップS4101)箇条書取得部40101は、文章群から1以上の箇条書き情報群を抽出する。1以上の箇条書き情報群を抽出する処理について、図42フローチャートを用いて説明する。
(ステップS4102)条件判断部40102は、条件を示す情報を読み出す。条件を示す情報とは、箇条書きの情報群が、所定の条件に合致するか否かを判断するための情報であり、予め条件判断部40102が保持している、とする。
(ステップS4103)条件判断部40102は、カウンタiに1を代入する。
(ステップS4104)条件判断部40102は、i番目の箇条書き情報群が存在するか否かを判断する。i番目の箇条書き情報群が存在すればステップS4105に行き、i番目の箇条書き情報群が存在しなければステップS311に行く。
(ステップS4105)条件判断部40102は、i番目の箇条書き情報群が、ステップS4102で読み出した条件に合致するか否かを判断する。
(ステップS4106)ステップS4105における判断が、条件に合致するとの判断の場合はステップS4106に行き、条件に合致しないとの判断の場合はステップS4109に行く。
(ステップS4107)順序逆転部40103は、i番目の箇条書き情報群の各項目の順序を逆転させて、新しいi番目の箇条書き情報群を取得し、メモリ上に配置する。なお、i番目の箇条書き情報群の各項目の順序を逆転させる処理は、例えば、5項目の箇条書き情報群である場合、旧5番目の項目が新しい1番目の項目となり、旧4番目の項目が新しい2番目の項目となり、3番目の項目は変わらず、旧2番目の項目が新しい4番目の項目となり、旧1番目の項目が新しい5番目の項目となる。かかる処理は、公知のテキスト処理であるので詳細な説明を省略する。
(ステップS4108)順序逆転部40103は、文章群中のi番目の箇条書き情報群を、ステップS4107で得た新しいi番目の箇条書き情報群に書き換える。
(ステップS4109)条件判断部40102は、カウンタiを1、インクリメントする。
次に、ステップS4101の、1以上の箇条書き情報群を抽出する処理について、図42フローチャートを用いて説明する。
(ステップS4201)箇条書取得部40101は、カウンタiに1を代入する。
(ステップS4202)箇条書取得部40101は、文章群中にi行目が存在するか否かを判断する。i行目が存在すればステップS4203に行き、i行目が存在しなければ上位処理にリターンする。
(ステップS4203)箇条書取得部40101は、文章群中のi行目を読み出す。
(ステップS4204)箇条書取得部40101は、カウンタjに1を代入する。
(ステップS4205)箇条書取得部40101は、j番目の箇条書きの開始情報(例えば、<ul>や\begin{itemize}など)が存在するか否かを判断する。なお、箇条書取得部40101は、箇条書きの開始情報、箇条書きの終了情報を予め保持している。j番目の箇条書きの開始情報が存在すればステップS4206に行き、存在しなければステップS4216に行く。
(ステップS4206)箇条書取得部40101は、文章群中のi行目が、j番目の箇条書きの開始情報に合致するか否かを判断する。合致すればステップS4207に行き、合致しなければステップS4215に行く。
(ステップS4207)箇条書取得部40101は、カウンタkに「i+1」を代入する。
(ステップS4208)箇条書取得部40101は、文章群中にk行目が存在するか否かを判断する。k行目が存在すればステップS4209に行き、k行目が存在しなければ上位処理にリターンする。
(ステップS4209)箇条書取得部40101は、文章群中のk行目を読み出す。
(ステップS4210)箇条書取得部40101は、j番目の箇条書きの終了情報を取得する。
(ステップS4211)箇条書取得部40101は、文章群中のk行目が、j番目の箇条書きの終了情報に合致するか否かを判断する。合致すればステップS4212に行き、合致しなければステップS4214に行く。
(ステップS4212)箇条書取得部40101は、文章群中のi行目からk行目までを箇条書き情報群として取得し、メモリ上に追記する。
(ステップS4213)箇条書取得部40101は、カウンタiに「k+1」を代入する。ステップS4202に戻る。
(ステップS4214)箇条書取得部40101は、カウンタkを1、インクリメントする。ステップS4208に戻る。
(ステップS4215)箇条書取得部40101は、カウンタjを1、インクリメントする。ステップS4205に戻る。
(ステップS4216)箇条書取得部40101は、カウンタiを1、インクリメントする。ステップS4202に戻る。
なお、図42のフローチャートにおいて、箇条書きの開始情報や、各項目の情報や、終了情報は、1行に記載されている、とした。しかし、箇条書きの開始情報や、各項目の情報や、終了情報は、複数行に渡っても良いし、1行に、他の情報が記載されていても良い。かかる場合、図42のフローチャートにおける行とは、情報の集合、であるとする。また、箇条書きの開始情報や、各項目の情報や、終了情報は、複数行に渡っている場合など、図42のフローチャートの処理の前に、文章群を整形し、開始情報や、各項目の情報や、終了情報を1行ずつとしても良い。
以下、本実施の形態における情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図1である。
本具体例において、箇条書き情報群を取得し、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件を判定し、当該条件に合致する箇条書き情報群の項目記載を逆にする態様について説明する。また、本具体例において、対象となる文章は、HTMLファイルである、とする。
今、ユーザは、情報処理装置401にインストールされているソフトウェアであり、コンピュータを指示受付部1101、指示送信部1102、文章群受信部1103、および出力部1108として機能させるためのソフトウェアであるWebブラウザを操作し、情報処理装置401の文章群受信部1103は、一のサーバ装置12から、図43に示す文章群を受信した、とする。
次に、文章群受付部1104は、文章群受信部1103が受信した図43の文書群を受け付ける。
そして、箇条書取得部40101は、箇条書きの開始情報「<UL>」と終了情報「</UL>」により、開始情報と終了情報を含み、それらに挟まれた各項目の情報を含む箇条書き情報群(図44)を取得する。
次に、条件判断部40102は、条件を示す情報「箇条書きの情報群を構成する全項目の中に、日付の情報(「年」「月」「日」のうちのいずれかを含むか、「数字列/数字列/数字列」という表記を含むか、「数字列/数字列」という表記を含むか)を含み、かつ、日付が昇順に並べられている」を読み出す。なお、条件を示す情報は、通常、正規表現で記載され、条件判断部40102は、当該正規表現に合致するか否かの判断を行う。
そして、条件判断部40102は、図44の箇条書き情報群の各項目のそれぞれに「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」という「年」「月」を含む文字列を有することを検知する。
次に、条件判断部40102は、「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」が昇順に並べられているか否かを判断する。ここで、各項目の日付を示す情報(「1993年3月」「1993年4月」「1995年4月」「1997年3月」「1997年4月」)が昇順に並べられているので、条件判断部40102は、条件に合致する、と判断する。
次に、順序逆転部40103は、箇条書き情報群の各項目の順序を逆転させて、新しい箇条書き情報群を取得し、メモリ上に配置する。つまり、順序逆転部40103は、図44の箇条書き情報群の各項目の記載順序を逆転し、図45の箇条書き情報群を得る。そして、順序逆転部40103は、箇条書き情報群を新しい情報に上書きし、図46の文章群を得る。
次に、文章群引渡部1107は、図46の文章群を受け付け、出力部1108に渡す。出力部1108は、図46の文章群(HTMLファイル)を解釈、実行し、図47に示すホームページを画面に表示する。
以上、本実施の形態によれば、文章群が有する箇条書きの情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む箇条書きの情報群の各項目を並べて表示してくれる。
なお、本実施の形態において、条件を判断せずに、すべての箇条書き情報群の各項目の順序を逆転させても良い。かかる場合、条件判断部40102は不要となる。
また、本実施の形態によれば、ユーザが日付の新しい順、古い順のどちらで閲覧したいかを指定することができれば、さらに好適である。例えば、箇条書きの情報群の各項目が日付の情報を含む場合に、ユーザが日付の新しい順となるように指定したとすれば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件が選択される。一方、ユーザが日付の古い順となるように指定したとすれば、「箇条書きの情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が降順に並べられている」という条件が選択される。
さらに本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム、である。
また、上記プログラムは、コンピュータを、前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部としてさらに機能させ、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得するものとして機能させるためのプログラム、であることは好適である。
(実施の形態6)
本実施の形態において、文章群中の表形式で記載された箇所について、列記するレコードの順序を逆転させるテキスト処理を行う情報処理装置等について説明する。また、特定の条件に合致する場合のみ、レコードの順序を逆転させるテキスト処理を行う情報処理装置等についても説明する。
図48は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置481と、1以上のサーバ装置12を具備する。
情報処理装置481は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、表情報取得部48101、条件判断部48102、順序逆転部48103、文章群引渡部1107、出力部1108を具備する。
表情報取得部48101は、受け付けた文章群中の、表の情報群を識別し、取得する。表情報取得部48101は、表の情報群を識別するための情報である表識別情報を保持しており、当該表識別情報を用いて、文章群を検索し、表の情報群を識別し、取得する。文章群がHTML文章である場合、表識別情報は、<table>と</table>の組の情報などである。また、文章群がTex文章である場合、表識別情報は、\begin{tabular}と\end{enumerate}の組の情報である。また、文章群が、いわゆるワープロで作成されたファイルである場合、表識別情報は、表の罫線の開始と、次行が罫線でない罫線の組である。表識別情報は、通常、表の情報群の開始を示す情報である表識別開始情報(例えば、<table>、\begin{tabular}など)と、表の情報群の終了を示す情報である表識別終了情報(例えば、</table>、\end{tabular}など)を含む。表情報取得部48101は、通常、MPUやメモリ等から実現され得る。表情報取得部48101の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
条件判断部48102は、表情報取得部48101が取得した表の情報群が、所定の条件に合致するか否かを判断する。所定の条件とは、例えば、「表の情報群を構成する全項目の中に、日付の情報を含み、かつ、日付が昇順に並べられている」など、である。条件判断部48102は、通常、MPUやメモリ等から実現され得る。条件判断部40102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
順序逆転部48103は、表情報取得部48101が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する。順序逆転部48103は、条件判断部48102における判断結果が、条件に合致するとの判断の場合のみ、表情報取得部48101が取得した表の情報群を、レコードの順序を逆にして表の情報群を取得する、ことは好適である。なお、順序逆転部48103は、条件判断部481032の判断結果によらずに、常に、表情報取得部48101が取得した表の情報群を、項目(レコード)の順序を逆にして表の情報群を取得しても良い。順序逆転部48103は、表の情報群の項目を逆転させた文章群を取得し、文章群引渡部1107に渡す。順序逆転部48103は、通常、MPUやメモリ等から実現され得る。順序逆転部48103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置451の動作について図49、図50のフローチャートを用いて説明する。図49のフローチャートにおいて、図3のフローチャートと同様のステップについて、説明を省略する。
(ステップS4901)表情報取得部48101は、文章群から1以上の表の情報群を抽出する。1以上の表の情報群を抽出する処理について、図50フローチャートを用いて説明する。
(ステップS4902)条件判断部48102は、条件を示す情報を読み出す。条件を示す情報とは、表の情報群が、所定の条件に合致するか否かを判断するための情報であり、予め条件判断部48102が保持している、とする。
(ステップS4903)条件判断部48102は、カウンタiに1を代入する。
(ステップS4904)条件判断部48102は、i番目の表の情報群が存在するか否かを判断する。i番目の表の情報群が存在すればステップS4905に行き、i番目の表の情報群が存在しなければステップS311に行く。
(ステップS4905)条件判断部48102は、i番目の表の情報群が、ステップS4902で読み出した条件に合致するか否かを判断する。
(ステップS4906)ステップS4905における判断が、条件に合致するとの判断の場合はステップS4906に行き、条件に合致しないとの判断の場合はステップS4909に行く。
(ステップS4907)順序逆転部40103は、i番目の表の情報群の各項目の順序を逆転させて、新しいi番目の表の情報群を取得し、メモリ上に配置する。なお、i番目の表の情報群の各項目の順序を逆転させる処理は、例えば、5レコード目の表の情報群である場合、旧5番目のレコードが新しい1番目のレコードとなり、旧4番目のレコードが新しい2番目のレコードとなり、3番目のレコードは変わらず、旧2番目のレコードが新しい4番目のレコードとなり、旧1番目のレコードが新しい5番目のレコードとなる。かかる処理は、公知のテキスト処理であるので詳細な説明を省略する。
(ステップS4908)順序逆転部40103は、文章群中のi番目の表の情報群を、ステップS4907で得た新しいi番目の表の情報群に書き換える。
(ステップS4909)条件判断部48102は、カウンタiを1、インクリメントする。
次に、ステップS4901の、1以上の表の情報群を抽出する処理について、図50のフローチャートを用いて説明する。
(ステップS5001)表情報取得部48101は、カウンタiに1を代入する。
(ステップS5002)表情報取得部48101は、文章群中にi行目が存在するか否かを判断する。i行目が存在すればステップS5003に行き、i行目が存在しなければ上位処理にリターンする。
(ステップS5003)表情報取得部48101は、文章群中のi行目を読み出す。
(ステップS5004)表情報取得部48101は、カウンタjに1を代入する。
(ステップS5005)表情報取得部48101は、j番目の表識別開始情報(例えば、<table>、\begin{tabular}など)が存在するか否かを判断する。なお、表情報取得部48101は、表識別開始情報、表識別終了情報を予め保持している。j番目の表識別開始情報が存在すればステップS5006に行き、存在しなければステップS5016に行く。
(ステップS5006)表情報取得部48101は、文章群中のi行目が、j番目の表識別開始情報に合致するか否かを判断する。合致すればステップS5007に行き、合致しなければステップS5015に行く。
(ステップS5007)表情報取得部48101は、カウンタkに「i+1」を代入する。
(ステップS5008)表情報取得部48101は、文章群中にk行目が存在するか否かを判断する。k行目が存在すればステップS5009に行き、k行目が存在しなければ上位処理にリターンする。
(ステップS5009)表情報取得部48101は、文章群中のk行目を読み出す。
(ステップS5010)表情報取得部48101は、j番目の表識別終了情報(例えば、</table>、\end{tabular}など)を取得する。
(ステップS5011)表情報取得部48101は、文章群中のk行目が、j番目の表識別終了情報に合致するか否かを判断する。合致すればステップS5012に行き、合致しなければステップS5014に行く。
(ステップS5012)表情報取得部48101は、文章群中のi行目からk行目までを表の情報群として取得し、メモリ上に追記する。
(ステップS5013)表情報取得部48101は、カウンタiに「k+1」を代入する。ステップS5002に戻る。
(ステップS5014)表情報取得部48101は、カウンタkを1、インクリメントする。ステップS5008に戻る。
(ステップS5015)表情報取得部48101は、カウンタjを1、インクリメントする。ステップS5005に戻る。
(ステップS5016)表情報取得部48101は、カウンタiを1、インクリメントする。ステップS5002に戻る。
なお、図50のフローチャートにおいて、表識別開始情報や、各レコードの情報や、終了情報は、1行に記載されている、とした。しかし、表識別開始情報や、各レコードの情報や、終了情報は、複数行に渡っても良いし、1行に、他の情報が記載されていても良い。かかる場合、図50のフローチャートにおける行とは、情報の集合、であるとする。また、表識別開始情報や、各レコードの情報や、終了情報は、複数行に渡っている場合など、図50のフローチャートの処理の前に、文章群を整形し、開始情報や、各レコードの情報や、終了情報を1行ずつとしても良い。
以下、本実施の形態における情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図1である。
本具体例において、表の情報群を取得し、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が降順に並べられている(日付の新しい順にレコードが並べられている)」という条件を判定し、当該条件に合致する表の情報群のレコード記載を逆にする態様について説明する。また、本具体例において、対象となる文章は、HTMLファイルである、とする。
今、ユーザは、情報処理装置481にインストールされているソフトウェアであり、コンピュータを指示受付部1101、指示送信部1102、文章群受信部1103、および出力部1108として機能させるためのソフトウェアであるWebブラウザを操作し、情報処理装置481の文章群受信部1103は、一のサーバ装置12から、図51に示す文章群を受信した、とする。
次に、文章群受付部1104は、文章群受信部1103が受信した図51の文書群を受け付ける。
そして、表情報取得部48101は、表識別開始情報「<table>」と表識別終了情報「</table>」により、表識別開始情報と表識別終了情報を含み、それらに挟まれた各レコードの情報を含む表の情報群(図52)を取得する。なお、表識別開始情報を含む行とは、「<table」と「>」を含む行として、表情報取得部48101は動作する、とする。かかる処理は、HTMLパーサの処理であり、公知技術であるので、詳細な説明を省略する。
次に、条件判断部40102は、条件を示す情報「表の情報群を構成する全レコードの中に、日付の情報(「年」「月」「日」のうちのいずれかを含むか、「数字列/数字列/数字列」という表記を含むか、「数字列/数字列」という表記を含むか)を含み、かつ、日付が降順に並べられている(日付の新しい順にレコードが並べられている)」を読み出す。なお、条件を示す情報は、通常、正規表現で記載され、条件判断部40102は、当該正規表現に合致するか否かの判断を行う。
そして、条件判断部48102は、図52の表の情報群の各レコード(<tr>と</tr>で挟まれた情報)のそれぞれに「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」という「年」「月」「日」のいずれかを含む文字列を有することを検知する。また、条件判断部48102は、好ましくは、各文字列は、同一の列に存在することを検知する。ここでは、条件判断部48102は、日付を示す文字列が、いずれも、表のレコード内の最初の属性値(最初の<td>の値)として記述されていることを検出する。
次に、条件判断部48102は、「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」が降順に並べられているか否かを判断する。ここで、各レコードの日付を示す情報(「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」)が降順に並べられているので、条件判断部48102は、条件に合致する、と判断する。条件判断部48102は、例えば、日付を示す情報(「2003年4月−」「1997年1月1日」「1986-1996年」「1986年」)から、それぞれ、「2003」「1997」「1986,1996」「1986」を取得し、数字が降順になっていることを検知する。
次に、順序逆転部48103は、表の情報群の各レコードの順序を逆転させて、新しい表の情報群を取得し、メモリ上に配置する。つまり、順序逆転部48103は、図52の表の情報群の各レコードの記載順序を逆転し、図53の表の情報群を得る。そして、順序逆転部48103は、表の情報群を新しい情報に上書きし、図54の文章群を得る。
次に、文章群引渡部1107は、図54の文章群を受け付け、出力部1108に渡す。出力部1108は、図54の文章群(HTMLファイル)を解釈、実行し、図55に示すホームページを画面に表示する。
以上、本実施の形態によれば、文章群が有する表の情報群の各項目の記載順序を自動的に反対にできる。特に、各項目が日付の情報を含む場合、ユーザが年度の古い順か新しい順か、見やすい順があるが、本実施の形態によれば、ユーザの見やすい順に日付の情報を含む表の情報群の各レコードを並べて表示してくれる。
なお、本実施の形態において、条件を判断せずに、すべての表の情報群の各レコードの順序を逆転させても良い。かかる場合、条件判断部48102は不要となる。
また、本実施の形態によれば、ユーザが日付の新しい順、古い順のどちらで閲覧したいかを指定することができれば、さらに好適である。例えば、表の情報群の各項目が日付の情報を含む場合に、ユーザが日付の新しい順となるように指定したとすれば、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が昇順に並べられている」という条件が選択される。一方、ユーザが日付の古い順となるように指定したとすれば、「表の情報群を構成する全レコードの中に、日付の情報を含み、かつ、日付が降順に並べられている」という条件が選択される。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム、である。
また、上記プログラムは、コンピュータを、前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部としてさらに機能させ、前記順序逆転部は、前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得するように機能させるためのプログラム、であることは好適である。
(実施の形態7)
本実施の形態において、文章群中の人名や地名などの用語(以下、装飾対象用語、という。)に対して、出現頻度に応じて、態様を変えて装飾するようなテキスト処理を行う情報処理装置等についても説明する。ここで、装飾とは、文字列の属性(色やサイズやフォントや背景色など)や、付属文字や図の付加など、文字を視覚的に他の文字と区別できるようにする処理を言う。
図56は、本実施の形態における情報処理システムのブロック図である。情報処理システムは、情報処理装置561と、1以上のサーバ装置12を具備する。
情報処理装置561は、指示受付部1101、指示送信部1102、文章群受信部1103、文章群受付部1104、装飾対象用語格納部56101、出現頻度別装飾情報格納部56102、装飾対象用語取得部56103、出現頻度情報取得部56104、装飾情報取得部56105、装飾対象用語変更部56106、文章群引渡部1107、出力部1108を具備する。
装飾対象用語格納部56101は、装飾の対象の用語である装飾対象用語を1以上格納している。装飾対象用語は、例えば、人名や地名などである。装飾対象用語は、例えば、いわゆる電子化された人名辞書や、電子化された地名辞書である。装飾対象用語格納部56101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
出現頻度別装飾情報格納部56102は、装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している。出現頻度情報とは、例えば、検索した1以上のファイルや情報群における、出現回数の情報(例えば、128回など)、出現確率の情報(例えば、全単語数のうちの出現回数であり、53/298726など)、出現回数の範囲を有する情報(例えば、1回から99回、など)、出現確率の範囲を有する情報(例えば、1/10000から2/10000、など)などである。装飾情報とは、例えば、文字属性(文字色、フォント、サイズ、背景色、下線など)や付属文字の付加に関する情報(例えば、「文字列の直前に「*」を挿入する」や、「文字列を括弧[]で囲む」などであり、複数の装飾についての情報(例えば、「文字色を赤にし、かつ、「文字列の直前に「*」を挿入する」」など)が組み合わされていても良い。出現頻度別装飾情報格納部56102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
装飾対象用語取得部56103は、受け付けた文章群から、装飾対象用語格納部56101に格納されている装飾対象用語を取得する。なお、装飾対象用語格納部56101は、情報処理装置の外部の装置に存在し、装飾対象用語取得部56103は、当該外部の装置を検索することにより、装飾対象用語を取得しても良い。装飾対象用語取得部56103は、通常、MPUやメモリ等から実現され得る。装飾対象用語取得部56103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出現頻度情報取得部56104は、装飾対象用語取得部56103が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する。出現頻度情報取得部56104は、通常、MPUやメモリ等から実現され得る。出現頻度情報取得部56104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
装飾情報取得部56105は、出現頻度情報取得部56104が取得した出現頻度情報に対応する装飾情報を、出現頻度別装飾情報格納部56102から取得する。装飾情報取得部56105は、通常、MPUやメモリ等から実現され得る。装飾情報取得部56105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
装飾対象用語変更部56106は、装飾情報取得部56105が取得した装飾情報を用いて、文章群中の装飾対象用語を装飾するように変更する。装飾対象用語変更部56106は、通常、MPUやメモリ等から実現され得る。装飾対象用語変更部56106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアは記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置561の動作について図57のフローチャートを用いて説明する。図57のフローチャートにおいて、図3のフローチャートと同様のステップについて説明を省略する。
(ステップS5701)装飾対象用語取得部56103は、カウンタiに1を代入する。
(ステップS5702)装飾対象用語取得部56103は、装飾対象用語格納部56101に、i番目の装飾対象用語が存在するか否かを判断する。i番目の装飾対象用語が存在すればステップS5703に行き、i番目の装飾対象用語が存在しなければステップS311に行く。
(ステップS5703)装飾対象用語取得部56103は、装飾対象用語格納部56101から、i番目の装飾対象用語を読み出す。
(ステップS5704)装飾対象用語変更部56106は、i番目の装飾対象用語をキーとして、ステップS304で受け付けた文章群を検索し、i番目の装飾対象用語が、文章群中に存在する位置の情報(例えば、文章群の先頭からのオフセットや、メモリ上のアドレスを示すポインタなど)を取得する。なお、ここで、文章群中にi番目の装飾対象用語が存在しない場合、i番目の装飾対象用語が文章群中に存在する位置情報は取得されない。文章群中にi番目の装飾対象用語が2以上存在する場合、位置情報は2以上取得される。
(ステップS5705)出現頻度情報取得部56104は、ステップS5704で1以上の位置情報が取得されたか否か(文章群中にi番目の装飾対象用語が存在するか否か)を判断する。文章群中にi番目の装飾対象用語が存在すればステップS5706に行き、文章群中にi番目の装飾対象用語が存在しなければステップS5713に行く。
(ステップS5706)出現頻度情報取得部56104は、i番目の装飾対象用語をキーとして検索対象を検索する。検索対象とは、出現頻度情報を取得するための元になる情報群であり、例えば、文章群や、1以上の外部装置のファイル群(例えば、Web上の1以上のサーバの多数のホームページなど)や、情報処理装置561内の1以上のファイル群などである。
(ステップS5707)出現頻度情報取得部56104は、ステップS5706における検索結果から、i番目の装飾対象用語の出現頻度情報を構成する。出現頻度情報取得部56104は、例えば、ステップS5706における検索結果から、i番目の装飾対象用語の出現回数や、出現ファイル数や、検索対象の全単語数などを取得する。そして、出現頻度情報取得部56104は、出現回数や、出現ファイル数をそのまま出現頻度情報としても良いし、「出現確率=出現回数/全単語数」を算出しても良い。
(ステップS5708)装飾情報取得部56105は、ステップS5707で取得された出現頻度情報を用いて、当該出現頻度情報に対応する装飾情報を、出現頻度別装飾情報格納部56102から読み出す。
(ステップS5709)装飾対象用語変更部56106は、カウンタjに1を代入する。
(ステップS5710)装飾対象用語変更部56106は、ステップS5704で取得した情報から、文章群中に、j番目の装飾対象用語が存在するか否かを判断する。文章群中にj番目の装飾対象用語が存在すればステップS5711に行き、j番目の装飾対象用語が存在しなければステップS5713に行く。
(ステップS5711)装飾対象用語変更部56106は、文章群中のj番目の装飾対象用語に対して、ステップS5708で取得した装飾情報を用いて、装飾をし、j番目の装飾対象用語を変更する。
(ステップS5712)装飾対象用語変更部56106は、カウンタjを1、インクリメントする。ステップS5710に戻る。
(ステップS5713)装飾対象用語取得部56103は、カウンタiを1、インクリメントする。ステップS5702に戻る。
以下、本実施の形態における情報処理システムの具体的な動作について説明する。情報処理システムの概念図は図1である。
今、情報処理装置561の装飾対象用語格納部56101は、図58に示す装飾対象用語管理表を格納している。装飾対象用語管理表は、地名や名勝などの情報を管理している。
また、出現頻度別装飾情報格納部56102は、図59に示す出現頻度別装飾情報管理表を格納している。出現頻度別装飾情報管理表は、「出現頻度情報」と「装飾情報」を対にして格納している。
かかる状況において、ユーザは、情報処理装置561にインストールされているソフトウェアであり、コンピュータを指示受付部1101、指示送信部1102、文章群受信部1103、および出力部1108として機能させるためのソフトウェアであるWebブラウザを操作し、情報処理装置561の文章群受信部1103は、一のサーバ装置12から、図57に示す文章群を受信した、とする。かかる文章群は、フラットなテキストデータでも良いし、HTMLやXMLなどのマークアップ言語等で記述されていても良い。
次に、文章群受付部1104は、文章群受信部1103が受信した図60の文書群を受け付ける。
次に、装飾対象用語取得部56103は、1番目の装飾対象用語「大阪」を装飾対象用語格納部56101から読み出す。
そして、装飾対象用語変更部56106は、1番目の装飾対象用語「大阪」をキーとして、図60の文章群を検索し、1番目の装飾対象用語「大阪」が、文章群中に存在する位置の情報(文章群の先頭からのオフセット)「offset1」を取得する。なお、文章群から文字列「大阪」に一致するところのオフセットを取得する技術は公知技術である。
次に、出現頻度情報取得部56104は、上記の処理で、位置情報が取得されたか否かを判断する。ここで、一つオフセット「offset1」が取得されたので、次の処理に進む、つまり、出現頻度情報取得部56104は、1番目の装飾対象用語「大阪」をキーとして検索対象を検索する。検索対象は、ここでは、多数のサーバ装置12に格納されている。また、サーバ装置12は、Web上のサーバ装置であり、検索対象は、多数の、いわゆるホームページである、とする。検索対象は、出現頻度情報を取得するための元になる情報群であり、例えば、文章群や、1以上の外部装置のファイル群(例えば、Web上の1以上のサーバの多数のホームページなど)や、情報処理装置561内の1以上のファイル群などである。
そして、出現頻度情報取得部56104は、例えば、装飾対象用語「大阪」の出現回数「891回」を得た、とする。そして、出現頻度情報取得部56104は、検索結果から、i番目の装飾対象用語の出現頻度情報「891」を構成する。つまり、ここでは、出現頻度情報は出現回数である。
次に、装飾情報取得部56105は、取得された出現頻度情報「891」を用いて、当該出現頻度情報に対応する装飾情報「下線,背景色=赤」を、図59の出現頻度別装飾情報管理表から取得し、メモリ上に配置する。なお、「下線,背景色=赤」は、HTML文書にそのまま挿入できる「underline,background:red」等でも良いことは言うまでもない。
次に、装飾対象用語変更部56106は、文章群中の1番目の装飾対象用語「大阪」に対して、取得された装飾情報「下線,背景色=赤」を用いて、装飾をし、文章群中の「offset1」の位置の装飾対象用語「大阪」を変更し、下線が引かれ、背景色が赤色になるように、文字属性を変更する。なお、文字属性を変更(設定)する技術は公知技術である。
そして、同様に、図58の装飾対象用語「京都」等も、「大阪」と同様の処理を行う。そして、出現頻度情報取得部56104は、各装飾対象用語に対して、図61に示す出現頻度情報を取得した、とする。
そして、装飾対象用語変更部56106は、文章群中の各装飾対象用語に対して、出現頻度情報に対応する装飾情報に従って、装飾の処理(文字列の属性値の設定処理)を行う。
そして、文章群引渡部1107は、装飾対象用語変更部56106がすべての装飾対象用語に対する装飾処理を完了した後、新しい文章群を受け付け、出力部1108に渡す。
次に、出力部1108は、渡された文章群を、図62に示すようにディスプレイに表示する。
以上、本実施の形態によれば、例えば、地名や人名などの用語(通常、ユーザが重要と考える用語)を、出現頻度に応じて装飾の方法を変えることにより、ユーザにとって文章が非常に読みやすい環境を与える。
なお、本実施の形態によれば、装飾情報は複数種類存在したが、1種類でも良い。かかる場合、予め決められた閾値以上の出現頻度、または予め決められた閾値以下の出現頻度の用語であり、文章群中の装飾対象用語を、予め決められた態様に装飾することにより、ユーザが、文章を非常に読みやすくなる。
また、本実施の形態において、装飾対象用語は、上述した固有表現の抽出方法などを用いて、文章群から自動抽出しても良い。かかる場合、情報処理装置561は、装飾対象用語格納部56101を具備しなくても良い。つまり、情報処理装置は、
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、1以上の文章を有する文章群を受け付ける文章群受付部と、前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得部と、前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得部と、前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム、である。
また、図63は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図63は、このコンピュータシステム340の概観図であり、図64は、コンピュータシステム340のブロック図である。
図63において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
図64において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、CPU(Central Processing Unit)3413と、CPU3413、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム340に、上述した実施の形態の画像出力装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ341に、上述した実施の形態の画像出力装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかるプログラムは、例えば、効果的なプログラム開発ができる、という効果を有し、テキスト処理用のプログラム等として有用である。
実施の形態1における情報処理システムの概念図を示す図 同情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置のブロック図 同文字列抽出処理の動作について説明するフローチャート 同文字列加工処理の動作について説明するフローチャート 同強調表示の説明図 同ツールバー表示の説明図 同強調表示例の説明図 同情報処理装置のブロック図 同文字列抽出処理の動作について説明するフローチャート 同文字列加工処理の動作について説明するフローチャート 同請求項を有する特許書類の例を示す図 同用語管理表を示す図 同特許書類の表示例を示す図 同情報処理装置のブロック図 同文字列加工処理の動作について説明するフローチャート 同抽出情報の一例を示す図 同科学文書の文章群の例を示す図 同表示色の定義を示す図 実施の形態2における情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同文章群タイプ決定について説明するフローチャート 同判断情報管理表を示す図 同得点管理表を示す図 同サポートベクトルマシン法のマージン最大化の概念を示す図 同文章群教師データの例を示す図 実施の形態3における情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同漢字読み仮名辞書を示す図 同文章群の例を示す図 同出力文章群の例を示す図 同書籍情報辞書を示す図 同文書群の例を示す図 同出力文章群の例を示す図 実施の形態4における情報処理システムのブロック図 同改良動作について説明するフローチャート 同出現頻度管理表を示す図 同中間的な表を示す図 実施の形態5における情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同箇条書き情報群の抽出処理について説明するフローチャート 同文章群の例を示す図 同箇条書き情報群を示す図 同箇条書き情報群を示す図 同文章群を示す図 同画面表示例を示す図 実施の形態6における情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同表の情報群の抽出処理について説明するフローチャート 同文章群を示す図 同表の情報群を示す図 同表の情報群を示す図 同文章群を示す図 同画面表示例を示す図 実施の形態7における情報処理システムのブロック図 同情報処理装置の動作について説明するフローチャート 同装飾対象用語管理表を示す図 同出現頻度別装飾情報管理表を示す図 同文章群を示す図 同出現頻度情報を示す図 同画面表示例を示す図 同情報処理装置を実現するコンピュータの外観図 同コンピュータシステムのブロック図
符号の説明
11、211、281、361、401、481、561 情報処理装置
12 サーバ装置
1101 指示受付部
1102 指示送信部
1103 文章群受信部
1104 文章群受付部
1105 文字列抽出部
1106 文字列加工部
1107 文章群引渡部
1108、21105 出力部
1201 文章群格納部
1202 指示受信部
1203 文章群取得部
1204 文章群送信部
11051 タイトル抽出手段
11052 単語抽出手段
11053 格納手段
11054 文章群中単語抽出手段
11061 タイトル別強調表示属性格納手段
11062 強調表示属性付与手段
21101 第一文字列抽出部
21102 第二文字列抽出部
21103 文字列属性格納部
21104 文字列加工部
21106 判断情報格納部
21107 文章群タイプ決定部
21108、36102 制御部
28101 変換用語情報格納部
28102 補足用語挿入部
28103 文章群引渡部
36101 出現頻度取得部
40101 箇条書取得部
40102、40102、48102 条件判断部
40103、40103、48103 順序逆転部
48101 表情報取得部
56101 装飾対象用語格納部
56102 出現頻度別装飾情報格納部
56103 装飾対象用語取得部
56104 出現頻度情報取得部
56105 装飾情報取得部
56106 装飾対象用語変更部
110512 単語抽出手段
110514 文章群中単語抽出手段
110521 抽出情報格納手段
110524 文章群中単語抽出手段
110612 強調表示属性付与手段
110621 強調表示属性格納手段
110622 強調表示属性付与手段
211071 文章群属性情報取得手段
211072 タイプ情報決定手段
281021 文字列抽出手段
281022 文字列加工手段

Claims (32)

  1. コンピュータに、
    1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群に対して、所定の条件に合致する1以上の文字列を抽出する文字列抽出ステップと、
    前記文字列抽出ステップで抽出した1以上の各文字列に対して、予め決められた加工を行う文字列加工ステップと、
    前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を表示部に渡す文章群引渡ステップを実行させるためのプログラムであって、
    前記文章群受付ステップと前記文章群引渡ステップは、コンパイラ型言語で実現し、前記文字列抽出ステップと前記文字列加工ステップはインタプリタ型言語で実現することを特徴とするプログラム。
  2. 前記文章群は、
    Web上のホームページであり、
    前記文章群受付ステップは、
    Webブラウザが受信したWeb上のホームページを受け付け、
    前記文章群引渡ステップは、
    前記Webブラウザに出力文章群を渡す請求項1記載のプログラム。
  3. 1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、
    前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、
    前記第一文字列抽出部または前記第二文字列抽出部に対応付けて、それぞれ文字列属性を格納している文字列属性格納部と、
    前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工部と、
    前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
  4. 文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、
    前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、
    前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部をさらに具備する請求項3記載の情報処理装置。
  5. 前記判断情報格納部は、
    文章群の属性を示す文章群属性情報と、当該文章群のタイプを示すタイプ情報の対の情報である文章群教師データを2以上格納しており、
    前記文章群タイプ決定部は、
    前記文章群受付部が受け付けた文章群から、当該文章群の文章群属性情報を取得する文章群属性情報取得手段と、
    前記判断情報格納部の2以上の文章群教師データが示す、文章群属性情報に対する文章群のタイプの分類方法に合致するように、前記文章群属性情報取得手段が取得した文章群属性情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定するタイプ情報決定手段を具備する請求項4記載の情報処理装置。
  6. 用語と当該用語に対して補足する用語である補足用語の対である変換用語情報を1以上格納している変換用語情報格納部と、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、前記変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、
    前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
  7. 前記変換用語情報は、
    漢字列と漢字の読み仮名の対の情報である請求項6記載の情報処理装置。
  8. 前記変換用語情報は、
    書籍名と書籍の属性を示す属性情報である請求項6記載の情報処理装置。
  9. 1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
    前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、
    前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部をさらに具備し、
    前記出力部は、
    前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置。
  10. 1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
    前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部を具備する情報処理装置であって、
    一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部をさらに具備し、
    前記出力部は、
    前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理装置。
  11. 1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、
    前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、
    元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置。
  12. 前記箇条書取得部が取得した箇条書きの情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、
    前記順序逆転部は、
    前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する請求項11記載の情報処理装置。
  13. 1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、
    前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、
    元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部を具備する情報処理装置。
  14. 前記表情報取得部が取得した表の情報群が、所定の条件に合致するか否かを判断する条件判断部をさらに具備し、
    前記順序逆転部は、
    前記条件判断部における判断結果が、条件に合致するとの判断の場合のみ、前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する請求項13記載の情報処理装置。
  15. 装飾の対象の用語である装飾対象用語を1以上格納している装飾対象用語格納部と、
    前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している出現頻度別装飾情報格納部と、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群から、前記装飾対象用語格納部に格納されている装飾対象用語を取得する装飾対象用語取得部と、
    前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、
    前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、前記出現頻度別装飾情報格納部から取得する装飾情報取得部と、
    前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、
    前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部を具備する情報処理装置。
  16. 前記装飾対象用語は、
    人名または地名である請求項15記載の情報処理装置。
  17. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出部と、
    前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出部と、
    前記第一文字列抽出部または前記第二文字列抽出部で、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出部または前記第二文字列抽出部に対応付けて格納されている文字列属性に従った文字列に加工を行う文字列加工部と、
    前記文字列加工部で加工した1以上の文字列を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
  18. コンピュータを、
    文章群のタイプを判断するための情報である判断情報を格納している判断情報格納部と、
    前記判断情報を用いて、前記文章群受付部が受け付けた文章群のタイプを決定する文章群タイプ決定部と、
    前記文章群タイプ決定部が決定した文章群のタイプに対応した前記第一文字列抽出部または前記第二文字列抽出部に対して動作の実行を指示する制御部としてさらに機能させるための請求項17記載のプログラム。
  19. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入部と、
    前記補足用語挿入部で挿入した補足用語を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
  20. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
    前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるためのプログラムであって、
    コンピュータを、
    前記文字列抽出部が抽出した文字列を用いて、前記文章群または、外部の装置に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得部としてさらに機能させ、
    前記出力部は、
    前記出現頻度取得部が取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるためのプログラム。
  21. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出部と、
    前記文字列抽出部が抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力部として機能させるためのプログラムであって、
    コンピュータを、
    一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付部としてさらに機能させ、
    前記出力部は、
    前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力するように機能させるためのプログラム。
  22. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得部と、
    前記箇条書取得部が取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転部と、
    元の箇条書きの情報群に代えて、前記順序逆転部が取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム。
  23. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得部と、
    前記表情報取得部が取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転部と、
    元の表の情報群に代えて、前記順序逆転部が取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力部として機能させるためのプログラム。
  24. コンピュータを、
    1以上の文章を有する文章群を受け付ける文章群受付部と、
    前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得部と、
    前記装飾対象用語取得部が取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得部と、
    前記出現頻度情報取得部が取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得部と、
    前記装飾情報取得部が取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更部と、
    前記装飾対象用語変更部が変更した装飾対象用語を含む出力文章群を渡す文章群引渡部と、
    前記文章群引渡部から受け付けた出力文章群を出力する出力部として機能させるためのプログラム。
  25. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群に対して、第一の所定の文字列に合致する1以上の文字列を抽出する第一文字列抽出ステップと、
    前記受け付けた文章群に対して、第二の所定の文字列に合致する1以上の文字列を抽出する第二文字列抽出ステップと、
    前記第一文字列抽出ステップまたは前記第二文字列抽出出ステップで、それぞれ抽出した1以上の各文字列に対して、前記第一文字列抽出出ステップまたは前記第二文字列抽出出ステップに対応付けて格納されている文字列属性を取得し、当該文字列属性に従った文字列に加工を行う文字列加工ステップと、
    前記文字列加工ステップで加工した1以上の文字列を含む出力文章群を渡す文章群引渡ステップと、
    前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。
  26. 文章群のタイプを判断するための情報である判断情報を記憶媒体から読み出し、当該判断情報用いて、前記文章群受付ステップで受け付けた文章群のタイプを決定する文章群タイプ決定ステップと、
    前記文章群タイプ決定ステップで決定した文章群のタイプに対応した前記第一文字列抽出ステップまたは前記第二文字列抽出ステップの実行を指示する制御ステップをさらに具備する請求項25記載の情報処理方法。
  27. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群に対して、記憶媒体に格納されている変換用語情報が有する用語を検索し、当該検索した用語に隣接して、当該用語と対になる補足用語を括弧付きまたは括弧なしで挿入する補足用語挿入ステップと、
    前記補足用語挿入ステップで挿入した補足用語を含む出力文章群を渡す文章群引渡ステップと、
    前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。
  28. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出ステップと、
    前記文字列抽出ステップで抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力ステップを具備する情報処理方法であって、
    前記文字列抽出ステップで抽出した文字列を用いて、前記文章群または、外部の装置に格納されている1以上の文章群を検索し、前記文字列の出現頻度を取得する出現頻度取得ステップをさらに具備し、
    前記出力ステップは、
    前記出現頻度取得ステップで取得した出現頻度が一定の条件を満たす程度に多い場合に、当該出現頻度が多い文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理方法。
  29. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群に対して、所定の文字列を抽出する文字列抽出ステップと、
    前記文字列抽出ステップで抽出した文字列を、他の文字列と比較して視覚的に区別して出力する出力ステップを具備する情報処理方法であって、
    一の文字列に対する、他の文字列と比較して視覚的に区別しない表示指示を受け付ける指示受付ステップをさらに具備し、
    前記出力ステップは、
    前記表示指示を受け付けた一の文字列を、前記他の文字列と比較して視覚的に区別せずに出力する情報処理方法。
  30. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群中の、箇条書きの情報群を識別し、取得する箇条書取得ステップと、
    前記箇条書取得ステップで取得した箇条書きの情報群を、箇条書きの順序を逆にして箇条書きの情報群を取得する順序逆転ステップと、
    元の箇条書きの情報群に代えて、前記順序逆転ステップで取得した箇条書きの情報群を文章群に書き込み、出力する文章群を構成し、出力する出力ステップを具備する情報処理方法。
  31. 1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群中の、表の情報群を識別し、取得する表情報取得ステップと、
    前記表情報取得ステップで取得した表の情報群を、表の行の上下の順序を逆にした表の情報群を取得する順序逆転ステップと、
    元の表の情報群に代えて、前記順序逆転ステップで取得した表の情報群を文章群に書き込み、出力する文章群を構成し、出力する出力ステップを具備する情報処理方法。
  32. 装飾の対象の用語である装飾対象用語を1以上格納している装飾対象用語格納部と、
    前記装飾対象用語の出現頻度についての情報である出現頻度情報と、当該出現頻度情報に対する文字列の装飾についての情報である装飾情報の組である出現頻度別装飾情報を1以上格納している出現頻度別装飾情報格納部と、
    1以上の文章を有する文章群を受け付ける文章群受付ステップと、
    前記受け付けた文章群から、記憶媒体に格納されている装飾対象用語を取得する装飾対象用語取得ステップと、
    前記装飾対象用語取得ステップで取得した装飾対象用語をキーとして検索し、当該装飾対象用語の出現頻度情報を取得する出現頻度情報取得ステップと、
    前記出現頻度情報取得ステップで取得した出現頻度情報に対応する装飾情報を、記憶媒体から取得する装飾情報取得ステップと、
    前記装飾情報取得ステップで取得した装飾情報を用いて、前記文章群中の装飾対象用語を装飾するように変更する装飾対象用語変更ステップと、
    前記装飾対象用語変更ステップで変更した装飾対象用語を含む出力文章群を渡す文章群引渡ステップと、
    前記文章群引渡ステップにより受け付けた出力文章群を出力する出力ステップを具備する情報処理方法。
JP2007090848A 2007-03-30 2007-03-30 情報処理装置、情報処理方法、およびプログラム Pending JP2008250651A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007090848A JP2008250651A (ja) 2007-03-30 2007-03-30 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007090848A JP2008250651A (ja) 2007-03-30 2007-03-30 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2008250651A true JP2008250651A (ja) 2008-10-16

Family

ID=39975527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007090848A Pending JP2008250651A (ja) 2007-03-30 2007-03-30 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2008250651A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム
JP2019537785A (ja) * 2016-11-21 2019-12-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 端末スクリーン上で情報がスクロールされる間に表示される情報
JP2020057337A (ja) * 2018-10-03 2020-04-09 多一 石川 電子文書の閲覧用電子機器、表示方法
CN111695568A (zh) * 2019-03-14 2020-09-22 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
JP2021082183A (ja) * 2019-11-22 2021-05-27 特許業務法人Ipx 情報処理装置、情報処理方法、プログラム及び書類
JP2021082303A (ja) * 2020-12-18 2021-05-27 特許業務法人Ipx 書類

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018061174A1 (ja) * 2016-09-30 2018-04-05 株式会社オプティム 電子書籍作成システム、電子書籍作成法及びプログラム
JP2019537785A (ja) * 2016-11-21 2019-12-26 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 端末スクリーン上で情報がスクロールされる間に表示される情報
JP2019096248A (ja) * 2017-11-28 2019-06-20 富士ゼロックス株式会社 文書処理装置及びプログラム
JP2020057337A (ja) * 2018-10-03 2020-04-09 多一 石川 電子文書の閲覧用電子機器、表示方法
CN111695568A (zh) * 2019-03-14 2020-09-22 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
CN111695568B (zh) * 2019-03-14 2023-08-18 精工爱普生株式会社 信息处理装置、机器学习装置以及信息处理方法
JP2021082183A (ja) * 2019-11-22 2021-05-27 特許業務法人Ipx 情報処理装置、情報処理方法、プログラム及び書類
JP2021082303A (ja) * 2020-12-18 2021-05-27 特許業務法人Ipx 書類

Similar Documents

Publication Publication Date Title
Welbers et al. Text analysis in R
Weiss et al. Fundamentals of predictive text mining
Schroeder et al. childLex: A lexical database of German read by children
Marton et al. Dependency parsing of Modern Standard Arabic with lexical and inflectional features
Khalifa et al. A large scale corpus of Gulf Arabic
Guasch et al. NIM: A Web-based Swiss army knife to select stimuli for psycholinguistic studies
Weiss et al. Text mining: predictive methods for analyzing unstructured information
Cotterell et al. On the complexity and typology of inflectional morphological systems
Erjavec et al. Machine learning of morphosyntactic structure: Lemmatizing unknown Slovene words
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Savoy Authorship attribution: A comparative study of three text corpora and three languages
Wartena A probabilistic morphology model for German lemmatization
Al-Jumaily et al. A real time Named Entity Recognition system for Arabic text mining
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
JP2008250651A (ja) 情報処理装置、情報処理方法、およびプログラム
Baker et al. Corpus linguistics and South Asian languages: Corpus creation and tool development
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Onyenwe et al. A Basic Language Resource Kit Implementation for the Igbo NLP Project
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Klahold et al. Computer aided writing
Hall et al. Phonological CorpusTools: Software for doing phonological analysis on transcribed corpora
Tran et al. Named entity recognition in Vietnamese documents
Melero et al. Holaaa!! writin like u talk is kewl but kinda hard 4 NLP
US6973423B1 (en) Article and method of automatically determining text genre using surface features of untagged texts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120905