JP2007241482A - Data display device and method - Google Patents

Data display device and method Download PDF

Info

Publication number
JP2007241482A
JP2007241482A JP2006060337A JP2006060337A JP2007241482A JP 2007241482 A JP2007241482 A JP 2007241482A JP 2006060337 A JP2006060337 A JP 2006060337A JP 2006060337 A JP2006060337 A JP 2006060337A JP 2007241482 A JP2007241482 A JP 2007241482A
Authority
JP
Japan
Prior art keywords
tag
display
text data
character string
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006060337A
Other languages
Japanese (ja)
Inventor
Maki Murata
真樹 村田
Tamotsu Shirato
保 白土
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006060337A priority Critical patent/JP2007241482A/en
Priority to PCT/JP2006/312350 priority patent/WO2006137412A1/en
Publication of JP2007241482A publication Critical patent/JP2007241482A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Digital Computer Display Output (AREA)
  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a display device and a method capable of appropriately extracting a character string and displaying it when displaying a predetermined character string from text data including a format setting tag in a peculiar and distinguishable format. <P>SOLUTION: A tag extraction means 100 extracts a format setting tag from text data. A tag saving means 101 stores the extracted tag together with the position information in the text data in a tag storage means 13 and removes the tag. A peculiar display character string extraction means 102 extracts a character string that displays data using a peculiar format from the text data after saving the tag. A peculiar format tag writing means 103 writes the format setting tag in accordance with the peculiar format in the text data. Furthermore, a tag reset means 104 refers to the storage means 13 and writes the format setting tag. A display means 105 displays the text data. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明はコンピュ−タにおけるテキストデ−タの表示装置及び方法に関し、特にHTMLなどの書式設定タグを含むテキストデ−タを表示する際に所定の文字列に特異な書式を付与する技術に係るものである。   The present invention relates to an apparatus and method for displaying text data in a computer, and more particularly to a technique for giving a specific format to a predetermined character string when displaying text data including formatting tags such as HTML. Is.

近年、インタ−ネットにより情報収集することが日常的に行われている。一般的にインタ−ネット上の情報はウェブブラウザで表示するためにHTML形式で記述されたテキストデ−タとして多くの情報が蓄積されている。
HTML形式は、テキストデ−タに加えて文字の色や大きさ、フォント、文字配置などの各種書式を規定するタグと、画像コンテンツ等のファイルを指定したり、リンク先のペ−ジのアドレスを指定するタグを含むものである。
In recent years, collecting information via the Internet is routinely performed. In general, a large amount of information on the Internet is stored as text data described in HTML format for display by a web browser.
In the HTML format, in addition to text data, tags that specify various formats such as character color and size, font, and character layout, and files such as image contents are specified, and the address of the link destination page. It contains a tag that specifies.

このようにタグを含むテキストデ−タとしてはマ−クアップ言語又はペ−ジ記述言語と呼ばれる言語形式が代表的な例である。マ−クアップ言語として広く使われているのは、上記のHTMLの他、JIS X 4159:2002に規定されたXMLがあり、XMLから派生したXHTML、数式を記述するためのMathML、デジタル放送等で用いられているBMLが知られる。
さらに、主に学術論文などの執筆にはTexと呼ばれる組版処理用の言語が好んで用いられている。
A typical example of text data including tags is a language format called a markup language or a page description language. In addition to the above-mentioned HTML, there are XMLs defined in JIS X 4159: 2002, such as XHTML derived from XML, MathML for describing mathematical formulas, digital broadcasting, etc. The BML used is known.
Furthermore, a typesetting processing language called Tex is preferably used mainly for writing academic papers.

ところで、学術論文には多くの数式や記号が記述されており、それらが論文の内容を端的に表現していることが多い。従って研究者は論文集など多数の論文から所望のトピックの論文を抽出する際に、数式や記号などを概観して選び出す作業を行うことがある。
近年では学会において発行される論文誌は従来の紙媒体からCD−ROMやインタ−ネットに変わりつつあり、論文をパ−ソナルコンピュ−タ上で閲覧する機会も多い。
By the way, many mathematical papers and symbols are described in academic papers, and they often express the content of papers. Therefore, when a researcher extracts a paper on a desired topic from a large number of papers such as a collection of papers, a researcher sometimes performs an operation of selecting and formulating mathematical expressions and symbols.
In recent years, journals published at academic societies are changing from conventional paper media to CD-ROMs and the Internet, and there are many opportunities to browse papers on personal computers.

このような時に、論文を構成するテキストから数式や記号を迅速に識別することができれば効率がよい。しかし、特に英語などのラテン文字を用いる論文では、同じくラテン文字で記載されることの多い数式や記号がテキスト中に埋没してしまい、詳細に閲読しなければならなかったり、肝心の数式や記号を見落とす恐れがあった。   In such a case, it is efficient if mathematical formulas and symbols can be quickly identified from the text composing the paper. However, especially in papers that use Latin characters such as English, mathematical formulas and symbols that are often written in Latin characters are buried in the text and must be read in detail. There was a fear of overlooking.

従来からワ−ドプロセッサにおいて文字種別に応じて表示色を変えることは行われている。例えばひらがな及び漢字は黒色、カタカナは緑色、半角英数字は茶色などのように区別して表示する製品が知られている。これは特に日本語と英語等では半角と全角の区別や長音とハイフンの区別が不明確になりやすいために、入力者に分かりやすく表示するものである。   Conventionally, in a word processor, a display color is changed according to a character type. For example, products are known that distinguish and display hiragana and kanji in black, katakana in green, and half-width alphanumeric characters in brown. In particular, in Japanese and English, the distinction between half-width and full-width and the distinction between long sound and hyphen are obscured, so that the input person can easily understand.

この方法は日本語論文中に半角の英数字が含まれている場合には、数式や記号をある程度見やすくすることには寄与するが、上述したようにすべてラテン文字で記述された論文の場合には全て同色となってしまうため判別しやすくならない。   This method contributes to making the mathematical formulas and symbols easier to read if the Japanese paper contains half-width alphanumeric characters. However, as mentioned above, this method is used for all the papers written in Latin characters. Are all the same color, so it is not easy to distinguish.

また、特許文献1には化学式の中から任意の化学物質について、その化学物質が有する様々な特徴を容易に表示する技術が開示されている。すなわち、元素記号によって色を変えると共に、固体や気体などの場合には斜体や太字にするなどの書式を変化させることが記載されている。   Patent Document 1 discloses a technique for easily displaying various characteristics of an arbitrary chemical substance in a chemical formula. That is, it is described that the color is changed depending on the element symbol and the format such as italic or bold is changed in the case of solid or gas.

特開平10−240748号公報JP-A-10-240748

本技術ではテ−ブルデ−タに単に元素記号の文字列を備えて一致した文字列の色を変化させるだけであるため、偶然に元素記号等と一致した文字列がテキスト中に存在すれば誤って色を変化させることになり、誤解を生じさせたり、かえって読みにくくなる結果を招きやすい。特に、ラテン文字を用いたテキスト中ではその誤りが頻出する問題がある。   In this technique, the table data is simply provided with the character string of the element symbol, and the color of the matched character string is changed. Therefore, if a character string that coincides with the element symbol is accidentally present in the text, it is erroneous. The color will change, which is likely to cause misunderstandings and rather difficult to read. In particular, there is a problem that errors frequently appear in text using Latin characters.

このような学術論文を表示する場合だけでなく、ウェブブラウザにおいて所望の文字列を識別する用途は広い。例えば本件出願人らが特許文献2及び3において提案している2つの文書の差分を表示する技術や、キ−ワ−ドを表示する技術を用いた場合にも、抽出された文字列を識別しやすく表示することが求められる。   In addition to displaying such academic papers, there are many uses for identifying a desired character string in a web browser. For example, the extracted character string is identified even when the technique for displaying the difference between two documents proposed by the applicants in Patent Documents 2 and 3 and the technique for displaying a keyword are used. It is required to display easily.

特許3682535号Japanese Patent No. 3682535 特開2004−280176号公報JP 2004-280176 A

このように文字を識別しやすく表示する場合に、上記したような書式設定タグを含むテキストデ−タに対して抽出する処理を行おうとすると、書式設定タグが障害となって適切な処理が行えない場合が多い。
書式設定タグは人間が書式を付与するために付加する性質上、内容が判別できるようにテキストで記述されており、本文等を構成するテキストとデ−タ上は区別されるものではない。加えて通常のテキストとやや異なり変則的な文字列が記載されることから、上記のようなテキスト処理において誤った抽出が行われることが多いという問題を抱えている。
In this way, when characters are displayed in an easy-to-identify manner, if an attempt is made to perform extraction processing on text data including formatting tags as described above, the formatting tags become an obstacle and appropriate processing can be performed. Often not.
Formatting tags are described in text so that the contents can be discriminated because of the nature of human beings to add formats, and the text constituting the body and the like are not distinguished from the data. In addition, since irregular character strings that are slightly different from normal text are described, there is a problem that erroneous extraction is often performed in the above text processing.

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、書式設定タグを含むテキストデ−タから所定の文字列を識別しやすい特異な書式で表示する際に、当該文字列を的確に抽出し表示させることのできる表示装置及び方法を提供することを目的とする。   The present invention was created in view of the above-described problems of the prior art, and when displaying a predetermined character string in a unique format that can be easily identified from text data including a formatting tag, the character is It is an object of the present invention to provide a display device and method capable of accurately extracting and displaying a column.

本発明は、上記の課題を解決するために、次のようなデ−タ表示装置を提供する。
すなわち、本発明の請求項1に記載の発明は、少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示装置である。
そして該装置が、テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、抽出された書式設定タグをそのテキストデ−タ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデ−タから除去するタグ待避処理を行うタグ待避処理手段とを有してテキストデ−タを抽出処理容易な態様に変換処理する。
In order to solve the above problems, the present invention provides the following data display device.
That is, according to the first aspect of the present invention, when displaying text data including at least a formatting tag for setting the text format, a part of the character string of the text data is set to a predetermined unique character. This is a data display device that can be displayed in a form.
Then, the apparatus stores tag extraction processing means for extracting at least a part of the formatting tag from text data, and stores the extracted formatting tag together with position information in the text data in the tag storage means. At the same time, it includes tag saving processing means for performing tag saving processing for removing the formatting tag from the text data, and converts the text data into a mode that facilitates extraction processing.

その後、タグ待避後のテキストデ−タから特異書式を用いた表示(特異表示)を行う文字列を抽出する特異表示文字列抽出処理手段、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込み処理手段、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデ−タに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰処理手段の各手段により特異書式タグを書き込んだテキストデ−タを生成する。
最後に該書式設定タグに従ってテキストデ−タを表示する表示処理手段を備える。
Thereafter, a unique display character string extraction processing means for extracting a character string to be displayed (singular display) using a specific format from the text data after saving the tag, and a format setting tag corresponding to the specific format is stored in the text data. Singular format tag writing processing means to be written in, a tag for reading the formatting tag and position information from the tag storage means, and writing the formatting tag in accordance with the positional information to the text data output from the singular format tag writing processing means Text data in which a unique format tag is written is generated by each means of tag return processing means for performing return processing.
Finally, display processing means for displaying text data in accordance with the formatting tag is provided.

また、本発明の別な形態として請求項2に記載のデ−タ表示装置は、タグ抽出処理手段と共に、抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手段と、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、特異書式タグ書き込み処理手段と、タグ序列置換処理手段により置換された文字を、該タグ序列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換処理手段と、表示処理手段を備えるものである。   According to another aspect of the present invention, the data display device according to claim 2 replaces the extracted formatting tag with a predetermined replacement character together with the tag extraction processing means, and the replaced formatting tag. Tag order replacement processing means for storing in the tag order storage means in the order of appearance, singular display character string extraction processing means for extracting a character string to be displayed using the singular format from the text data after tag replacement, and singular format A tag writing processing unit, a tag sequence reverse replacement processing unit that replaces the characters replaced by the tag sequence replacement processing unit with the formatting tags read in order from the tag sequence storage unit, in order of ranking, and a display processing unit. Is.

本発明の請求項3に記載のデ−タ表示装置は、上記の所定の置換文字が、序列のある文字であることを特徴とする。序列のある文字として、例えば数字や文字コ−ドの付与された文字・符号(空白を含む)などを用いることができる。   The data display device according to claim 3 of the present invention is characterized in that the predetermined replacement character is an ordered character. As an ordered character, for example, a character / symbol (including a blank) provided with a numeral or a character code can be used.

さらに異なる形態として請求項4に記載のデ−タ表示装置は、タグ抽出処理手段と、抽出された書式設定タグを予め備えたタグ置換デ−タベ−スに基づいて所定の符号に置換するタグ置換処理手段と、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、特異書式タグ書き込み処理手段と、表示処理手段とを備えたことを特徴とする。   According to a fourth aspect of the present invention, there is provided a data display device according to claim 4, wherein the tag extraction processing means and a tag for replacing the extracted format setting tag with a predetermined code based on a tag replacement database provided in advance. A replacement processing means, a unique display character string extraction processing means for extracting a character string to be displayed using the unique format from the text data after tag replacement, a unique format tag writing processing means, and a display processing means. It is characterized by that.

請求項5に記載の発明は、請求項4のデ−タ表示装置が、タグ置換処理手段により置換された符号から予め備えたタグ逆置換デ−タベ−スに基づいて所定の書式設定タグに置換するタグ逆置換処理手段を備えて、表示処理手段によるテキストデ−タの表示を行うものである。   According to a fifth aspect of the present invention, the data display device according to the fourth aspect provides a predetermined format tag based on a tag reverse replacement database prepared in advance from the code replaced by the tag replacement processing means. A tag reverse replacement processing unit for replacement is provided, and text data is displayed by the display processing unit.

請求項6に記載の発明は、上記デ−タ表示装置に特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備えることを特徴とする。   The invention according to claim 6 is provided with a display state setting means capable of switching between a singular display state for performing display using a singular format and a normal display state for performing normal display on the data display device. And

請求項7に記載の発明は、表示状態設定手段が、前記表示処理部によりテキストデ−タを表示する表示領域の近接領域に配置されることを特徴とするデ−タ表示装置を提供する。   According to a seventh aspect of the present invention, there is provided a data display device, characterized in that a display state setting means is arranged in an area close to a display area where text data is displayed by the display processing section.

請求項8に記載の発明は、前記特異書式タグ書き込み処理手段において、特異書式としてテキストデ−タの基本文字色と異なる表示色を設定する書式設定タグを書き込むことを特徴とする。   The invention described in claim 8 is characterized in that the singular format tag writing processing means writes a format setting tag for setting a display color different from the basic character color of the text data as the singular format.

請求項9に記載の発明は、前記テキストデ−タが少なくとも自然科学で用いられる記号又は式(以下、科学記号と呼ぶ)を含む構成に係る。そして、上記特異表示文字列抽出処理手段が、科学記号として用いる1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号デ−タベ−スと、科学記号デ−タベ−スを参照してテキストデ−タから科学記号候補文字列を抽出する科学記号抽出処理部と、該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部とを備える。
さらに、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグを書き込むことを特徴とするものである。
The invention according to claim 9 relates to a configuration in which the text data includes at least symbols or formulas (hereinafter referred to as scientific symbols) used in natural science. The unique display character string extraction processing means stores a scientific symbol database in which one or more character strings used as scientific symbols and expression conditions for expressing the character strings are stored in advance, and a scientific symbol database. A scientific symbol extraction processing unit that extracts a scientific symbol candidate character string from text data with reference to the text, and a character string display determination process that determines a display mode of the scientific symbol candidate character string by comparing with the expression condition A part.
Further, the unique format tag writing processing means writes a format setting tag according to a display mode.

請求項10に記載の発明は、前記デ−タ表示装置がテキストの差分を検出して表示する構成において、前記特異表示文字列抽出処理手段が、テキストデ−タの差分として出力する対象の単位である抽出単位とテキストデ−タの差分を検出するために比較する領域の単位である検出領域とを用いて下記の処理を行う。
該抽出単位と検出領域とは予め定義されていてもよいし、入力部と抽出・検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出・検出領域設定部で設定されてもよい。また、記憶部と抽出・検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出・検出領域設定部で設定されてもよい。
According to a tenth aspect of the present invention, in the configuration in which the data display device detects and displays a text difference, a unit of a target output by the singular display character string extraction processing means as a text data difference In order to detect the difference between the extraction unit and the text data, the following processing is performed using the detection region that is the unit of the region to be compared.
The extraction unit and the detection region may be defined in advance, or may include an input unit and an extraction / detection region setting unit, and the extraction / detection region setting unit may be configured based on setting information input from the input unit. It may be set. The extraction / detection region setting unit may include a storage unit and an extraction / detection region setting unit, and may be set by the extraction / detection region setting unit based on setting information recorded in the storage unit.

そして、特異表示文字列抽出処理手段には情報を格納する格納部と、抽出部とを備える。
該構成において、抽出部は、入力されたテキストデ−タの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して該格納部に格納し、現在の該検出領域において、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列として抽出すると共に、該抽出部の処理を該検出領域ごとに繰り返す。
そして、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグを書き込むことを特徴とするものである。
The unique display character string extraction processing means includes a storage unit for storing information and an extraction unit.
In the configuration, the extraction unit extracts all the units corresponding to the extraction units from the region other than the current detection region of the input text data, stores the extracted text data in the storage unit, and stores the current detection region. In FIG. 5, a unit corresponding to the extraction unit that is not stored in the storage unit is extracted as a unique display character string, and the processing of the extraction unit is repeated for each detection region.
The unique format tag writing processing means writes a format setting tag according to the display mode.

請求項11に記載の発明は、前記のデ−タ表示装置がキ−ワ−ドとなる語句を特異書式で表示する構成において、特異表示文字列抽出処理手段が、予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定されるか、のいずれかにより決まる抽出の単位を用いて下記の処理を行う。
そして、特異表示文字列抽出処理手段には特異書式で表示する抽出表現を設定する抽出表現設定部と、抽出領域の場所を設定する抽出領域設定部と、情報を格納する格納部と、抽出部とを備える。
According to an eleventh aspect of the present invention, in the configuration in which the data display device displays a keyword that is a keyword in a unique format, whether or not the unique display character string extraction processing means is defined in advance is extracted. The following processing is performed using an extraction unit that is provided with a unit setting unit and is set by the extraction unit setting unit.
And in the unique display character string extraction processing means, an extraction expression setting unit for setting an extraction expression to be displayed in a unique format, an extraction region setting unit for setting the location of the extraction region, a storage unit for storing information, and an extraction unit With.

該構成において抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデ−タ中に現在の該抽出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特異表示文字列として抽出した後、前記特異書式タグ書き込み処理手段が、表示態様に従った書式設定タグを書き込むことを特徴とする。   In the configuration, the extraction unit extracts an extraction unit corresponding to the extraction area, stores the extraction expression corresponding to the extraction expression in the storage unit, and stores the current extraction of the text data in the text data. If the same thing corresponding to the unit is stored in the storage unit, after extracting it as a unique display character string, the unique format tag writing processing means sets the formatting tag according to the display mode. It is characterized by writing.

請求項12に記載の発明は、請求項11における抽出領域の場所として、前記テキストデ−タのタイトル部分とすることを特徴とするものである。  The invention described in claim 12 is characterized in that the location of the extraction area in claim 11 is the title portion of the text data.

本発明は、次のようにデ−タ表示方法として提供することもできる。
すなわち、請求項13に記載の発明は少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示方法に係る。
そして該方法において、次の各ステップを含む。
(1−1)タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ
(1−2)タグ待避処理手段が、該抽出された書式設定タグをそのテキストデ−タ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデ−タから除去するタグ待避処理を行うタグ待避ステップ
(1−3)特異表示文字列抽出処理手段が、タグ待避後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ
(1−4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ
(1−5)タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデ−タに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ
(1−6)表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
The present invention can also be provided as a data display method as follows.
That is, according to the thirteenth aspect of the present invention, when displaying text data including at least a formatting tag for setting the text format, a part of the text data can be displayed in a predetermined unique format. The present invention relates to a data display method.
The method includes the following steps.
(1-1) Tag extraction step in which the tag extraction processing means extracts at least a part of the formatting tag from the text data. (1-2) The tag saving processing means extracts the extracted formatting tag. Tag saving step (1-3) unique display character string extraction processing means for storing the tag information together with position information in the text data and performing tag saving processing for removing the formatting tag from the text data The unique display character string extraction step (1-4) for extracting the character string to be displayed using the unique format from the text data after saving the tag. The unique format tag writing processing means uses the format corresponding to the unique format. A unique format tag writing step for writing the setting tag into the text data (1-5) The tag restoration processing means reads the format setting tag and the position information from the tag storage means, and the unique format tag A tag restoration step (1-6) for performing a tag restoration process for writing a formatting tag in accordance with the position information for the text data output from the write-in processing means. The display processing means performs the text data in accordance with the formatting tag. Display step to display

また、別の態様として請求項14に開示される次のステップを含むデ−タ表示方法でもよい。
(2−1)タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ
(2−2)タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換ステップ
(2−3)特異表示文字列抽出処理手段が、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ
(2−4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ
(2−5)タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該タグ序列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換ステップ
(2−6)表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
As another aspect, a data display method including the following steps disclosed in claim 14 may be used.
(2-1) A tag extraction step in which the tag extraction processing means extracts at least a part of the formatting tag from the text data. (2-2) A tag sequence replacement processing means extracts the formatted tag. Is replaced with a predetermined replacement character, and the tag order replacement step (2-3) for storing the replaced formatting tags in the order of appearance in the tag order storage means (2-3) the unique display character string extraction processing means A unique display character string extraction step (2-4) for extracting a character string to be displayed using a unique format from the data. The unique format tag writing processing means stores a format setting tag corresponding to the unique format in the text data. Sequential format tag writing step for writing to (2-5) The tag setting reverse replacement processing means reads out the characters replaced in the tag order replacement step in order from the tag order storage means. Display step of displaying the data - the tag hierarchy reverse replacement step (2-6) display processing means for re-substitution in the order of ranking is, text de accordance 該書 formula setting Tag

ここで上記の所定の置換文字が、序列のある文字であることを特徴とする。序列のある文字として、例えば数字や文字コ−ドの付与された文字・符号(空白を含む)などを用いてもよい。   Here, the predetermined replacement character is an ordered character. As an ordered character, for example, a character / symbol (including a blank) provided with a number or a character code may be used.

さらに異なる態様として請求項16に開示されるデ−タ表示方法を提供することもできる。該方法は次のステップを含む。
(3−1)タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ
(3−2)タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換デ−タベ−スに基づいて所定の符号に置換するタグ置換ステップ
(3−3)特異表示文字列抽出処理手段が、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ
(3−4)特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ
(3−5)表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
Furthermore, the data display method disclosed in claim 16 can be provided as a different mode. The method includes the following steps.
(3-1) A tag extraction step in which the tag extraction processing means extracts at least a part of the formatting tag from the text data. (3-2) A tag replacement processing means extracts the extracted formatting tag. Tag substitution step for replacing with a predetermined code on the basis of a tag substitution database prepared in advance (3-3) The unique display character string extraction processing means uses a unique format from the text data after tag substitution. Singular display character string extraction step (3-4) for extracting a character string to be displayed A singular format tag writing step in which the singular format tag writing processing means writes a format setting tag corresponding to the singular format in the text data ( 3-5) A display step in which the display processing means displays text data in accordance with the formatting tag.

ここで、デ−タ表示方法は、(3−3)特異文字列抽出ステップの後、(3−5)表示ステップの前の間のいずれかの時点において、(3−3−1)タグ逆置換処理手段により、前記タグ置換処理手段により置換された符号から予め備えたタグ逆置換デ−タベ−スに基づいて所定の書式設定タグに置換するタグ逆置換ステップを実行してもよい。   Here, the data display method is as follows: (3-3) Tag reversal at any point between (3-3) Singular character string extraction step and (3-5) Before display step. The replacement processing means may execute a tag reverse replacement step of replacing the code replaced by the tag replacement processing means with a predetermined formatting tag based on a tag reverse replacement database provided in advance.

請求項17に記載のデ−タ表示方法は、表示状態設定手段により特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能とする構成を提供する。   According to a seventeenth aspect of the present invention, there is provided a configuration capable of switching between a singular display state in which display using a singular format is performed and a normal display state in which normal display is performed by a display state setting unit.

ここで、上記の(1−4)(2−4)(3−4)特異書式タグ書き込みステップにおいて、特異書式としてテキストデ−タの基本文字色と異なる表示色を設定する書式設定タグを書き込むようにしてもよい。   Here, in the (1-4) (2-4) (3-4) unique format tag writing step, a format setting tag for setting a display color different from the basic character color of the text data is written as the unique format. You may do it.

請求項18に記載のデ−タ表示方法は、テキストデ−タが少なくとも自然科学で用いられる記号又は式(以下、科学記号と呼ぶ)を含む構成において、(1−3)(2−3)(3−3)特異表示文字列抽出ステップが、科学記号として用いる1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号デ−タベ−スを用い、(I−1)科学記号抽出処理部により該科学記号デ−タベ−スを参照して該テキストデ−タから科学記号候補文字列を抽出する科学記号抽出処理過程、(I−2)文字列表示決定処理部により該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程を含む。
そして、(1−4)(2−4)(3−4)特異書式タグ書き込みステップにおいて、該表示態様に従った書式設定タグを書き込むことを特徴とする。
The data display method according to claim 18, wherein the text data includes at least a symbol or formula used in natural science (hereinafter referred to as a scientific symbol). (1-3) (2-3) (3-3) The unique display character string extraction step uses a scientific symbol database in which one or more character strings used as scientific symbols and expression conditions for expressing the character strings are stored in advance (I- 1) a scientific symbol extraction process for extracting a scientific symbol candidate character string from the text data by referring to the scientific symbol database by a scientific symbol extraction processing unit; (I-2) a character string display determination process; A character string display determination process for determining a display mode of the scientific symbol candidate character string by comparing with the expression condition by the unit.
Then, in the (1-4) (2-4) (3-4) unique format tag writing step, a format setting tag according to the display mode is written.

なお、本発明のデ−タ表示方法ではテキストの差分を検出して表示するために、前記特異表示文字列抽出処理手段が、テキストデ−タの差分として出力する対象の単位である抽出単位とテキストデ−タの差分を検出するために比較する領域の単位である検出領域とについて、予め定義されているか、入力部と抽出・検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出・検出領域設定部で設定されるか、記憶部と抽出・検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出・検出領域設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用いる。特異表示文字列抽出処理手段に情報を格納する格納部と、抽出部とを備える。   In the data display method of the present invention, in order to detect and display a text difference, the unique display character string extraction processing means includes an extraction unit which is a target unit to be output as a text data difference. A detection area that is a unit of an area to be compared for detecting a difference of text data is defined in advance or is provided with an input section and an extraction / detection area setting section and is input from the input section The extraction / detection region setting unit is set based on the information, or the extraction / detection region setting unit is provided with a storage unit and an extraction / detection region setting unit and recorded on the storage unit. The extraction unit and the detection area that are determined depending on whether they are set or not are used. The unique display character string extraction processing means includes a storage unit for storing information and an extraction unit.

そして、(1−3)(2−3)(3−3)特異表示文字列抽出ステップが、(II−1)該抽出部により入力されたテキストデ−タの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出する抽出過程、(II−2)該抽出結果を該格納部に格納する格納過程、(II−3)現在の該検出領域において、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列として抽出する特異表示文字列抽出過程、(II−4)該特異表示文字列抽出過程を該検出領域ごとに繰り返す過程を含むようにしてもよい。   (1-3) (2-3) (3-3) The unique display character string extraction step includes (II-1) regions other than the current detection region of the text data input by the extraction unit. (II-2) a storage process for storing the extraction result in the storage unit; (II-3) in the current detection area, A singular display character string extraction process for extracting a unit corresponding to the extraction unit that is not stored as a singular display character string; and (II-4) a process of repeating the singular display character string extraction process for each detection region. Good.

また本発明では、キ−ワ−ドとなる語句を特異書式で表示するために前記特異表示文字列抽出処理手段が、予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定されるか、のいずれかにより決まる抽出の単位を用いる。特異表示する抽出表現を設定する抽出表現設定部と、抽出領域の場所を設定する抽出領域設定部と、情報を格納する格納部と、抽出部とを備える。
該構成において、(1−3)(2−3)(3−3)特異表示文字列抽出ステップが、(III−1)該抽出部により該抽出領域より抽出の単位に相当するものを抽出する抽出過程、(III−2)そのうち該抽出表現に該当するものを該格納部に格納する格納過程、(III−3)前記テキストデ−タ中に現在の該抽出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特異表示文字列として抽出する特異表示文字列抽出過程を含むようにしてもよい。
Further, in the present invention, the unique display character string extraction processing means is defined in advance to display a word or phrase as a keyword in a unique format, or is provided with an extraction unit setting unit. An extraction unit that is set or determined by either is used. An extraction expression setting unit that sets an extraction expression to be uniquely displayed, an extraction area setting unit that sets the location of the extraction area, a storage unit that stores information, and an extraction unit.
In this configuration, (1-3), (2-3), and (3-3) unique display character string extraction step (III-1) the extraction unit extracts one corresponding to the unit of extraction from the extraction region. Extraction process, (III-2) storage process of storing the corresponding expression in the storage unit, (III-3) the same as the unit corresponding to the current extraction unit in the text data If an item is stored in the storage unit, a unique display character string extracting step of extracting it as a unique display character string may be included.

上記のデ−タ表示方法は、請求項20の構成において抽出領域の場所として、前記テキストデ−タのタイトル部分とすることを特徴とする。   The above data display method is characterized in that, in the structure of claim 20, the place of the extraction area is the title portion of the text data.

本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、請求項1又は13に記載の発明によれば、書式設定タグを抽出し、そのタグをタグ記憶手段に待避することにより、書式設定タグを含まないテキストデ−タに対して特異表示する文字列の抽出処理を行うことができる。書式設定タグは、通常の文字列とは異なり規則的に反復して現れるだけでなく記号を含むことが多いため、上記の文字列の抽出処理で誤って抽出されてしまう場合がある。本発明によれば、このような誤処理を防止することができると共に、テキストデ−タのデ−タ量が削減されるため、高速な処理に寄与する。
The present invention has the following effects by providing the above configuration.
That is, according to the invention described in claim 1 or 13, the formatting tag is extracted, and the tag is saved in the tag storage means, so that it is displayed specifically for the text data not including the formatting tag. Character string extraction processing can be performed. Unlike normal character strings, formatting tags often appear not only regularly but also include symbols, and thus may be erroneously extracted in the above character string extraction process. According to the present invention, such erroneous processing can be prevented and the amount of text data is reduced, which contributes to high-speed processing.

請求項2又は14に記載の発明によれば、上記の効果の他、所定の置換文字で書式設定タグが配置された位置にポインタとなる文字を配置することができるので、位置を記憶することなく適正な順番で書式設定タグの待避と復帰の処理を行うことができる。   According to the invention described in claim 2 or 14, in addition to the above effect, a character serving as a pointer can be arranged at a position where a formatting tag is arranged with a predetermined replacement character, so that the position is stored. The format tag can be saved and restored in the proper order.

請求項3に記載の発明によれば、所定の置換文字として、番号やアルファベットなどの序列のある文字(複数の文字でもよい)で置換することにより、置換文字が通信の障害等により欠落した場合でも、再度置換する際に該欠落を検出することが可能であり、書式設定が正しく行えない事態を当該書式設定タグだけに止めることができる。そして、他の書式設定を正常に行うことができる。   According to the third aspect of the present invention, when a replacement character is missing due to a communication failure or the like by replacing with a sequenced character such as a number or alphabet (may be a plurality of characters) as a predetermined replacement character However, when the replacement is performed again, the lack can be detected, and the situation where the formatting cannot be performed correctly can be stopped only by the formatting tag. Then, other formatting can be performed normally.

請求項4又は15に記載の発明によれば、書式設定タグと所定の符号を予め対応づけたタグ置換デ−タベ−スに従って置換することにより、置換後のテキストデ−タベ−スが小容量になる上に、文字列の抽出処理のエラ−を抑制し、かつ待避する先がなくともよい。従って処理機構の簡素化を図ることができる。   According to the invention described in claim 4 or 15, by replacing the format tag with a predetermined code in accordance with a tag replacement database that is associated in advance, the replaced text database has a small capacity. In addition, there is no need to suppress the error in the character string extraction process and to save the destination. Therefore, the processing mechanism can be simplified.

請求項5に記載の発明によれば、タグ逆置換デ−タベ−スを備えることで、テキストデ−タの表示に不可欠な書式設定タグでも置換処理し、文字列抽出の処理精度向上を図ることができる。そして、逆置換により適正な書式で表示を行うことができる。   According to the fifth aspect of the present invention, the tag reverse replacement database is provided, so that even the formatting tag indispensable for displaying the text data is replaced, and the processing accuracy of the character string extraction is improved. be able to. Then, display can be performed in an appropriate format by reverse replacement.

請求項6及び7、16に記載の発明によれば、デ−タ表示装置に特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備えるので閲覧中に簡便に表示状態を切り替えることができる。特に、請求項7に記載の発明では例えばウェブブラウザのツ−ルバ−上に当該ボタンを配置することができる。   According to the invention described in claims 6, 7, and 16, display state setting means capable of switching between a singular display state for performing display using a singular format and a normal display state for performing normal display on the data display device. The display state can be easily switched during browsing. In particular, in the invention described in claim 7, for example, the button can be arranged on a toolbar of a web browser.

請求項8に記載の発明によれば、前記特異書式タグ書き込み処理手段において、特異書式としてテキストデ−タの基本文字色と異なる表示色を設定する書式設定タグを書き込むことを特徴とする。   According to the invention described in claim 8, the singular format tag writing processing means writes a format setting tag for setting a display color different from the basic character color of the text data as the singular format.

請求項9、17に記載の発明によれば、テキストデ−タが科学論文などであって、特に科学記号を抽出する際に本発明の技術を用いることができる。科学記号の場合には特に特異表示のために抽出する文字列と、書式設定タグが類似している場合が多く、本発明により好適な抽出処理に寄与する。   According to the invention described in claims 9 and 17, the text data is a scientific paper or the like, and in particular, the technique of the present invention can be used when extracting a scientific symbol. In the case of scientific symbols, in particular, the character string extracted for specific display and the formatting tag are often similar, which contributes to a suitable extraction process according to the present invention.

請求項10に記載の発明によれば、テキストデ−タの差分を検出・表示する際に本発明の技術を用いることができる。この場合にも、書式設定タグを取り除いて差分を検出するため、タグが差分として抽出されることがなくなり、好適な抽出処理に寄与する。   According to the tenth aspect of the present invention, the technique of the present invention can be used when detecting and displaying a difference between text data. Also in this case, since the difference is detected by removing the formatting tag, the tag is not extracted as a difference, which contributes to a suitable extraction process.

請求項11、12に記載の発明によれば、キ−ワ−ドとなる語句を特異書式で表示する際に本発明の技術を用いることができる。キ−ワ−ドはタイトル部分などから抽出するが、その際に書式設定タグを伴って抽出してしまうことを防止することができる。   According to the inventions described in claims 11 and 12, the technique of the present invention can be used when displaying a word or phrase as a keyword in a unique format. The keyword is extracted from the title portion or the like, but it can be prevented that the keyword is extracted with the formatting tag at that time.

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。   Hereinafter, embodiments of the present invention will be described based on examples shown in the drawings. The embodiment is not limited to the following.

図1は本発明の第1の実施例に係るデ−タ表示装置(1)(以下、本装置と呼ぶ)の全体構成図である。本発明は公知のパ−ソナルコンピュ−タにより容易に実現することが可能であり、演算処理やテキスト処理などを司るCPU(10)によって本発明の各ステップを実行処理する。CPU(10)は周知のようにメモリ(図示しない)と協働して動作し、キ−ボ−ドやマウス(11)などの入力手段の他、出力結果を表示するモニタ(12)、ハ−ドディスク等の外部記憶装置(13)などを備えている。
また、テキストデ−タの取得などのためにデ−タの取得入力手段としてインタ−ネット等のネットワ−クと接続するネットワ−クアダプタ(14)を設けてもよい。
FIG. 1 is an overall configuration diagram of a data display device (1) (hereinafter referred to as this device) according to a first embodiment of the present invention. The present invention can be easily realized by a known personal computer, and each step of the present invention is executed by a CPU (10) that manages arithmetic processing and text processing. As is well known, the CPU (10) operates in cooperation with a memory (not shown), and in addition to input means such as a keyboard and a mouse (11), a monitor (12) for displaying output results, -An external storage device (13) such as a hard disk is provided.
In addition, a network adapter (14) connected to a network such as the Internet may be provided as data acquisition input means for acquiring text data.

そして、CPU(10)にはタグ抽出処理手段であるタグ抽出処理部(100)と、タグ待避処理手段であるタグ待避処理部(101)と、特異表示文字列抽出処理手段である特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理手段である特異書式タグ書き込み処理部(103)と、タグ復帰処理手段であるタグ復帰処理部(104)と、表示処理手段である表示処理部(105)とを設けている。   The CPU (10) includes a tag extraction processing unit (100) that is a tag extraction processing unit, a tag saving processing unit (101) that is a tag saving processing unit, and a unique display character that is a unique display character string extraction processing unit. A column extraction processing unit (102), a singular format tag writing processing unit (103) that is a singular format tag writing processing unit, a tag restoration processing unit (104) that is a tag restoration processing unit, and a display process that is a display processing unit Part (105).

以下、本発明ではHTML形式のテキストデ−タを入力することを例として説述する。図2に処理の流れ図を示す。タグ付テキスト(2)はネットワ−クアダプタ(14)により外部のサ−バ装置等から取得したHTMLデ−タであり、周知のように、HTML書式に従ったさまざまなタグが含まれている。このようなタグにはリンク先を示すためのタグや、表示書式を定めるためのタグが含まれているが、本発明ではすべて書式設定タグと定義し、以下では略してタグと呼ぶ。   In the following, the present invention will be described by taking HTML text data as an example. FIG. 2 shows a flowchart of the process. The tagged text (2) is HTML data acquired from an external server device or the like by the network adapter (14), and includes various tags according to the HTML format as is well known. . Such tags include a tag for indicating a link destination and a tag for defining a display format. In the present invention, all tags are defined as format setting tags, and are hereinafter referred to as tags for short.

まず、タグ抽出処理部(100)において、タグ付テキスト(2)からタグの部分を抽出する。(ステップS1−1)
テキストデ−タ中からタグ情報を抽出する方法は公知であり、HTML形式の場合には、タグは<H1>のように<と>によって囲まれて記載される。従って、この<と>をデ−タ前方から順に検索していくことでタグの抽出は行うことができる。
First, the tag extraction processing unit (100) extracts a tag portion from the tagged text (2). (Step S1-1)
A method for extracting tag information from text data is known. In the case of the HTML format, a tag is surrounded by <and> as <H1>. Therefore, tags can be extracted by sequentially searching <and> from the front of the data.

なお、ここで抽出するタグを限定して一部のタグだけを抽出するようにしてもよい。この場合、例えば記憶装置(13)に抽出すべきタグ又は抽出しないタグのデ−タベ−スを備え、該デ−タベ−スを参照しながらタグ抽出処理部(100)が一致するタグを抽出するようにする。   Note that only a part of the tags may be extracted by limiting the tags extracted here. In this case, for example, a tag database to be extracted or not extracted is provided in the storage device (13), and the tag extraction processing unit (100) extracts matching tags while referring to the database. To do.

このとき、デ−タベ−スには後述する特異表示文字列抽出処理部(102)で抽出する文字列に合わせて、特に混同を生じやすいタグだけ抽出するようにしてもよい。例えば、科学記号について特異表示文字列として抽出する構成であれば、<H1>〜<H6>や<B>や<I>のように英字1文字や数字との組合せからなるタグを登録してそのようなタグについて抽出することもできる。   At this time, only tags that are particularly likely to be confused may be extracted from the database in accordance with a character string extracted by a unique display character string extraction processing unit (102) described later. For example, if you have a structure that extracts scientific symbols as unique display character strings, you can register tags consisting of a combination of one letter or a number, such as <H1> to <H6>, <B>, and <I>. Such tags can also be extracted.

そして、抽出されたタグをタグ待避処理部(102)が記憶装置(13)に待避処理する。(ステップS1−2)
すなわち、タグと、そのタグが埋め込まれていたタグ付テキスト上の位置を記憶装置内のタグ待避テ−ブルに順次格納し、タグ自体はテキストデ−タから除去する。
Then, the tag saving processing unit (102) saves the extracted tag in the storage device (13). (Step S1-2)
That is, the tag and the position on the tagged text in which the tag is embedded are sequentially stored in the tag save table in the storage device, and the tag itself is removed from the text data.

図3は入力したタグ付テキスト(30)からタグが除去される様子を示している。このとき、タグ待避テ−ブルには表1のようなデ−タが格納される。表1は最初の3つのタグのみを示している。位置としては全てのタグを除去する前の先頭文字からの文字数をカウントしている。   FIG. 3 shows how the tag is removed from the input tagged text (30). At this time, data as shown in Table 1 is stored in the tag saving table. Table 1 shows only the first three tags. As the position, the number of characters from the first character before removing all tags is counted.

Figure 2007241482
Figure 2007241482

次に、特異表示文字列抽出処理部(102)における処理(S1−3)を行う。該処理は、本発明の特徴であり、ウェブブラウザ上で文字列を強調して表示するために当該文字列を表示する。この処理部としては後述する科学記号の抽出や、差分抽出、キ−ワ−ド抽出などがあるが、ここでは、最も簡単な例として記憶装置に格納された文字列を抽出する例で説明する。   Next, processing (S1-3) in the unique display character string extraction processing unit (102) is performed. This process is a feature of the present invention, and the character string is displayed in order to highlight the character string on the web browser. Examples of the processing unit include scientific symbol extraction, difference extraction, keyword extraction, and the like, which will be described later. Here, an example of extracting a character string stored in a storage device will be described as the simplest example. .

記憶装置(13)に、例えばいくつかの文字列として"H"、"He"、"Li"などの特異表示をする特異表示文字列を格納しておき、当該文字列に一致する文字列についてタグを除去した後のテキストデ−タから抽出処理する。
特異表示とは、文字の色や大きさなど表示態様が他のテキストの表示態様と特異なものであり、ユ−ザがウェブブラウザで閲覧したときに他と区別して読むことができる。フォントの変更、太字、斜体、下線、網掛け、囲い文字、傍点、マ−カ−表示などの表示態様でもよい。
In the storage device (13), for example, “H”, “He”, “Li” and other unique display character strings are stored as some character strings, and the character strings matching the character strings are stored. Extraction processing is performed from the text data after the tag is removed.
The peculiar display means that the display mode such as the color and size of characters is peculiar to the display mode of other texts, and can be read separately from others when the user browses with a web browser. Display modes such as font change, bold, italic, underline, shaded, enclosing character, side point, marker display may be used.

そして、抽出された文字列の前後に特異表示するための書式設定タグを書き込む。それには特異書式タグ書き込み処理部(103)の作用により特異書式タグ書き込み処理(S1−4)が実行される。
具体的には<font color="blue">と</font>などの書式設定タグを当該文字列の前後に追加的に書き込む。
このような特異表示文字列の抽出(S1−3)と特異書式タグ書き込み(S1−4)により特異表示文字列を強調して表示させるタグを書き込むことができる。
Then, a formatting tag for specific display is written before and after the extracted character string. For this purpose, the singular format tag writing processing (S1-4) is executed by the action of the singular format tag writing processing unit (103).
Specifically, formatting tags such as <font color = "blue"> and </ font> are additionally written before and after the character string.
By such extraction of the unique display character string (S1-3) and writing of the unique format tag (S1-4), it is possible to write a tag for highlighting and displaying the unique display character string.

特異書式タグが書き込まれたテキストデ−タに対して、タグ復帰処理部(104)がタグ待避処理(S1−2)で待避したタグを、テキストデ−タ中に戻す処理を行う(ステップS1−5)。
該処理部(104)は記憶手段のタグ待避テ−ブルから順に待避したタグを読み出し、格納された位置に従ってタグを書き込む。すでに特異書式タグが埋め込まれているが、位置がずれないように特異書式タグは文字数に含めずに位置をカウントする。
For the text data in which the unique format tag is written, the tag restoration processing unit (104) performs processing for returning the tag saved in the tag saving processing (S1-2) to the text data (step S1). -5).
The processing unit (104) reads the saved tags in order from the tag saving table of the storage means, and writes the tags according to the stored position. Although the unique format tag is already embedded, the unique format tag counts the position without including it in the number of characters so that the position does not shift.

この処理を回避するために、特異表示文字列の抽出(S1−3)後、抽出した文字列を一次的にメモリに格納してタグの復帰処理(S1−5)を行い、その後特異書式タグの書き込み処理(S1−4)を行ってもよい。   In order to avoid this processing, after the extraction of the unique display character string (S1-3), the extracted character string is temporarily stored in the memory, the tag restoration process (S1-5) is performed, and then the unique format tag The writing process (S1-4) may be performed.

最後に表示処理部(105)によりモニタ(12)上でブラウザ表示を行う。(ステップS1−6)
図4はこのときのブラウザ画面を示している。インタ−ネット等の情報を表示するウェブブラウザは公知であり、一般的にはウィンドウ(40)の1つとして表示される。ウィンドウ(40)の最上段にはデ−タのタイトル(41)、2段目にはウィンドウ又はOS上の処理を指定するコマンド列(42)が、3段目には表示ペ−ジを戻したり進めたりするボタンや、読み込みの中止ボタン(43)等が、4段目には閲覧しているサ−バとファイルの格納ディレクトリが示されている。
Finally, browser display is performed on the monitor (12) by the display processing unit (105). (Step S1-6)
FIG. 4 shows the browser screen at this time. Web browsers that display information such as the Internet are known and are generally displayed as one of windows (40). The top row of the window (40) is the data title (41), the second row is the command string (42) for specifying the processing on the window or the OS, and the third row is the display page. The fourth button indicates the server being browsed and the file storage directory.

本発明では、これら一般的なブラウザの表示画面に加えて、特異表示を行うかどうかを切り替え可能なボタンをブラウザのウィンドウ内に配置することを提案する。すなわち、図4に示されるように、テキストデ−タの表示領域(45)の直上方にツ−ルバ−領域(46)を設け、該ツ−ルバ−にボタン(47)を配置する。
ユ−ザがブラウザで閲覧する際に、通常はネットワ−クアダプタ(14)から取得したタグ付テキスト(2)を表示処理部(105)が表示領域(45)に直接表示するが、該ボタン(47)を押すと上記ステップS1−1〜S1−6の処理を実行し、特異表示を行う状態に切り替えする。
In the present invention, in addition to these general browser display screens, it is proposed that a button capable of switching whether or not to perform specific display is arranged in the browser window. That is, as shown in FIG. 4, a toolbar area (46) is provided immediately above the display area (45) for text data, and a button (47) is arranged on the toolbar.
When the user browses with a browser, the display processing unit (105) directly displays the tagged text (2) acquired from the network adapter (14) in the display area (45). When (47) is pressed, the processing of steps S1-1 to S1-6 is executed, and the state is switched to a state in which unique display is performed.

特異表示は特定のコンテンツの場合に有効に作用するものであり、通常の閲覧時には特異表示を行うとかえって読みにくい場合があるから、このようにボタン(47)により簡便に表示状態を切り替えると好適である。
特に、ツ−ルバ−のように表示領域に近接(隣接する欄及び表示領域から一定の距離内にある欄)した領域に配置することで上下・左右のスクロ−ルバ−(48)からも近く直感的な操作が可能である。
Peculiar display works effectively in the case of specific contents, and it may be difficult to read if peculiar display is performed during normal browsing. Therefore, it is preferable to simply switch the display state with the button (47) in this way. It is.
In particular, it is close to the vertical and horizontal scroll bars (48) by placing it in an area close to the display area, such as a tool bar (adjacent columns and columns within a certain distance from the display area). Intuitive operation is possible.

本発明の第2の実施形態を図5及び図6に示す。本実施例では、実施例1においてタグを除去して記憶していたのに対し、所定の置換文字で置換することを特徴とする。   A second embodiment of the present invention is shown in FIGS. In the present embodiment, the tag is removed and stored in the first embodiment, but is replaced with a predetermined replacement character.

図5は本発明の第2の実施例に係るデ−タ表示装置(5)(以下、本装置と呼ぶ)の全体構成図である。第1の実施例と同一の構成要素については同一の符号で示している。これらの説明は省略する。
CPU(10)にはタグ抽出処理部(100)と、タグ待避処理手段であるタグ待避処理部(101)と、特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理部(103)と、表示処理部(105)の他、タグ序列置換処理部(110)とタグ序列逆置換処理部(111)とを設けている。
FIG. 5 is an overall configuration diagram of a data display device (5) (hereinafter referred to as this device) according to a second embodiment of the present invention. The same components as those in the first embodiment are denoted by the same reference numerals. These descriptions are omitted.
The CPU (10) includes a tag extraction processing unit (100), a tag saving processing unit (101) as tag saving processing means, a unique display character string extraction processing unit (102), and a unique format tag writing processing unit (103). ) And a display processing unit (105), a tag sequence replacement processing unit (110) and a tag sequence reverse replacement processing unit (111) are provided.

図6は本実施例の流れ図であり、まずタグ付テキスト(2)をネットワ−クアダプタ(14)等から入力してタグ抽出処理部(100)でタグを抽出(S2−1)する。   FIG. 6 is a flowchart of this embodiment. First, the tagged text (2) is input from the network adapter (14) or the like, and the tag extraction processing unit (100) extracts the tag (S2-1).

そして、タグ序列置換処理部(110)が、該タグを除去すると共に、所定の置換文字で置換処理(S2−2)する。置換文字としては、通常のテキストで用いられない特殊な文字・符号が適当であり、例えば使用されていない表示上は空白の文字コ−ドや、特徴的な文字の組み合わせ、「(!%%!)」やギリシア文字とロシア文字の組み合わせ「ζБ」などを用いてもよい。   Then, the tag sequence replacement processing unit (110) removes the tag and performs replacement processing with a predetermined replacement character (S2-2). Special characters and symbols that are not used in ordinary text are suitable as replacement characters.For example, a blank character code on the display that is not used, a combination of characteristic characters, or `` (! %% !) ”Or a combination of Greek and Russian letters“ ζБ ”.

置換処理(S2−2)の詳細は、例えば図3の例では<TITLE>から順に</TITLE>、<BODY BGCOLOR="FFFFFF">をそれぞれ(!%%!)に置換していく。
一方、抽出されたタグは表2に示すタグ序列テ−ブルとして記憶装置(13)に格納する。
For details of the replacement process (S2-2), for example, in the example of FIG. 3, </ TITLE> and <BODY BGCOLOR = "FFFFFF"> are replaced with (! %%!) In order from <TITLE>.
On the other hand, the extracted tags are stored in the storage device (13) as a tag sequence table shown in Table 2.

Figure 2007241482
Figure 2007241482

本処理(S2−2)により、テキストデ−タ中には(!%%!)等の文字が書き込まれ、元のタグは待避した状態になる。このようなテキストデ−タに対して、特異表示文字列抽出処理部(102)により特異表示する文字を抽出する処理(S2−3)、特異書式タグ書き込み処理部(103)により特異書式タグを書き込む処理(S2−4)を行う。これらは前記した通りである。   By this processing (S2-2), characters such as (! %%!) Are written in the text data, and the original tag is saved. For such text data, the unique display character string extraction processing unit (102) extracts characters to be specifically displayed (S2-3), and the unique format tag write processing unit (103) sets the unique format tag. A writing process (S2-4) is performed. These are as described above.

そして、特異書式タグが書き込まれたテキストに対して、タグ序列逆置換処理部(111)によりタグを復帰させる処理(S2−5)を行う。
該処理(S2−5)は、(!%%!)の文字列を検出し、置換文字の最初から順にタグ序列テ−ブルに格納されたタグの序列に従って再度逆置換を行う。本処理によってテキストデ−タに対してタグが復帰する。
And the process (S2-5) which returns a tag by the tag order reverse substitution process part (111) is performed with respect to the text in which the specific format tag was written.
In this process (S2-5), the character string (! %%!) Is detected, and reverse replacement is performed again according to the order of the tags stored in the tag order table from the beginning of the replacement character. By this processing, the tag is restored to the text data.

逆置換(S2−5)したタグ付テキストを表示処理部(105)の作用によってブラウザ表示(S2−6)する。
本実施例のような処理によると、タグの位置をカウントし、記憶する必要がないため、タグの置換処理及び逆置換処理が簡便かつ迅速に行うことができる。
The tagged text subjected to reverse replacement (S2-5) is displayed on the browser (S2-6) by the action of the display processing unit (105).
According to the process of the present embodiment, it is not necessary to count and store the tag position, so that the tag replacement process and the reverse replacement process can be performed easily and quickly.

ここで、第2実施例の別実施例として、所定の置換文字にさらに序列を付すこともできる。すなわち、上記の置換文字を序列のある文字とする。ここで序列のある文字列とは数字や英語のアルファベットなど、予め序列が定められたものである。視認可能な文字の他、空白(NULL)が割り当てられた文字コ−ドでもよく、デ−タ上、文字コ−ドが割り当てられていれば視認不可能なものであってもよい。すなわち、空白でも文字コ−ドが順に増加(又は減少)していけば序列が識別できるので本発明では利用可能である。   Here, as another embodiment of the second embodiment, an order may be further added to a predetermined replacement character. That is, the above replacement character is an ordered character. Here, the ordered character string is a character string having a predetermined order such as a number or an English alphabet. In addition to the visually recognizable character, a character code to which a blank (NULL) is assigned may be used, and if the character code is assigned on the data, it may be invisible. That is, even if the character code is blank, if the character code increases (or decreases) in order, the order can be identified, so that it can be used in the present invention.

別実施例における置換処理(S2−2)の詳細は、例えば図3の例では<TITLE>を「##1##」に、</TITLE>を「##2##」に、<BODY BGCOLOR="FFFFFF">を「##3##」のように順に置換していく。
一方、抽出されたタグは上記の表2に示すタグ序列テ−ブルとして記憶装置(13)に格納する。
The details of the replacement processing (S2-2) in another embodiment are as follows. For example, in the example of FIG. 3, <TITLE> is changed to "## 1 ##", </ TITLE> is changed to "## 2 ##", <BODY Replace BGCOLOR = "FFFFFF"> in order like "## 3 ##".
On the other hand, the extracted tags are stored in the storage device (13) as the tag sequence table shown in Table 2 above.

本処理(S2−2)により、テキストデ−タ中には##1##等の文字が書き込まれ、元のタグは待避した状態になる。特異表示文字列抽出処理部(102)以下の処理は上記と同一である。   By this processing (S2-2), characters such as ## 1 ## are written in the text data, and the original tag is saved. Processing after the unique display character string extraction processing unit (102) is the same as described above.

タグを復帰させる処理(S2−5)は、##n##(nは番号)の文字列を検出し、番号の序列に従って、タグ序列テ−ブルに格納されたタグに再度逆置換を行う。本処理によってテキストデ−タに対してタグが復帰する。   In the process of returning the tag (S2-5), the character string of ## n ## (n is a number) is detected, and reverse substitution is again performed on the tag stored in the tag order table according to the order of the number. . By this processing, the tag is restored to the text data.

本構成によれば、置換文字自体に序列の情報を含むため単なるポインタとしての機能だけでなく、タグとの対応関係を確定させる機能をもたせることができる。例えば、通信の障害(ネットワ−ク障害や、文字エンコ−ドのエラ−など)によって一部の置換文字が欠落した場合でも、それ以外の置換文字は適切に元の書式設定タグに逆置換することができる。   According to this configuration, since the replacement character itself includes the order information, it is possible to provide not only a function as a simple pointer but also a function for determining the correspondence with the tag. For example, even if some replacement characters are missing due to a communication failure (network failure, character encoding error, etc.), other replacement characters are appropriately reversely replaced with the original formatting tags. be able to.

本発明の第3の実施形態を図7及び図8に示す。本実施例では、タグ置換デ−タベ−スを参照して、タグの種類に応じてタグを所定の符号に変換することを特徴とする。   A third embodiment of the present invention is shown in FIGS. The present embodiment is characterized in that a tag is converted into a predetermined code according to the type of the tag with reference to the tag replacement database.

図6は本発明の第3の実施例に係るデ−タ表示装置(7)(以下、本装置と呼ぶ)の全体構成図である。第1の実施例と同一の構成要素については同一の符号で示している。これらの説明は省略する。
CPU(10)にはタグ抽出処理部(100)と、タグ待避処理手段であるタグ待避処理部(101)と、特異表示文字列抽出処理部(102)と、特異書式タグ書き込み処理部(103)と、表示処理部(105)の他、タグ置換処理部(120)とタグ逆置換処理部(121)とを設けている。
FIG. 6 is an overall configuration diagram of a data display device (7) (hereinafter referred to as this device) according to a third embodiment of the present invention. The same components as those in the first embodiment are denoted by the same reference numerals. These descriptions are omitted.
The CPU (10) includes a tag extraction processing unit (100), a tag saving processing unit (101) as tag saving processing means, a unique display character string extraction processing unit (102), and a unique format tag writing processing unit (103). ) And a display processing unit (105), a tag replacement processing unit (120) and a tag reverse replacement processing unit (121) are provided.

図8は本実施例の流れ図であり、まずタグ付テキスト(2)をネットワ−クアダプタ(14)等から入力してタグ抽出処理部(100)でタグを抽出(S3−1)する。   FIG. 8 is a flowchart of the present embodiment. First, the tagged text (2) is input from the network adapter (14) or the like, and the tag extraction processing unit (100) extracts the tag (S3-1).

そして、タグ序列置換処理部(110)が、該タグを除去すると共に、表3に示すようなタグ置換デ−タベ−スを参照して所定の符号に置換処理(S3−2)する。   Then, the tag sequence replacement processing unit (110) removes the tag and refers to the tag replacement database as shown in Table 3 to perform a replacement process with a predetermined code (S3-2).

Figure 2007241482
Figure 2007241482

ここで、置換文字列として(!__などの特徴的な符号で囲まれた文字列を用いることにより、タグとその他の記号とを明確に識別することができる。このうち、タグにカラ−コ−ドやリンク先のアドレスなど、固有の情報を含む場合には、表3のBODY BGCOLORの項目で示したように置換文字列中に固有情報をコピ−するようにしてもよい。   Here, by using a character string surrounded by a characteristic code such as (! __) as a replacement character string, the tag and other symbols can be clearly identified. When unique information such as a code or a link destination address is included, the unique information may be copied into the replacement character string as shown in the BODY BGCOLOR item in Table 3.

置換されたテキストデ−タに対して、特異表示文字列抽出処理部(102)により特異表示する文字を抽出する処理(S3−3)を行う。このとき、(!__と__!)で囲まれた文字列に対しては該処理(S3−3)を行わないようにすることで、誤ってタグを抽出する恐れがなく、高精度な処理に寄与する。
特異書式タグ書き込み処理部(103)により特異書式タグを書き込む処理(S3−4)を行う。これらは前記した通りである。
For the replaced text data, the unique display character string extraction processing unit (102) performs a process (S3-3) of extracting characters to be displayed specifically. At this time, by not performing the process (S3-3) on the character string enclosed by (! __ and __!), There is no fear of extracting a tag by mistake and high accuracy. Contribute to safe processing.
The unique format tag write processing unit (103) performs the process of writing the unique format tag (S3-4). These are as described above.

そして、特異書式タグが書き込まれたテキストに対して、タグ逆置換処理部(121)によりタグを復帰させる処理(S3−3−1)を行う。
該処理(S3−3−1)は、表3のようなテ−ブルを参照して(!__と__!)とで囲まれた置換文字列を、元のタグに逆置換する処理である。
本処理によってテキストデ−タに対してタグが復帰する。
And the process (S3-3-1) which returns a tag by the tag reverse replacement process part (121) is performed with respect to the text in which the specific format tag was written.
The process (S3-3-1) is a process of referring back to the table as shown in Table 3 and reversely replacing the replacement character string enclosed by (! __ and __!) With the original tag. It is.
By this processing, the tag is restored to the text data.

別実施例として、(!__と__!)からなる符号内に、タグの序列nを加えて例えば(!__T__n__!)のようにすると共に、カラ−コ−ドなどの固有の情報は別に記憶装置(13)に格納することもできる。そして、タグ逆置換処理部(121)では序列nに従って、固有情報を記憶装置(13)から読み出し、タグを復帰させることもできる。   As another example, a sequence consisting of (! __ and __!) Is added with an order n of tags, for example (! __ T__n__!), And unique information such as a color code is Alternatively, it can be stored in the storage device (13). Then, the tag reverse replacement processing unit (121) can read the unique information from the storage device (13) in accordance with the order n and restore the tag.

ところで、置換に用いるタグ置換デ−タベ−スと、逆置換に用いるタグ逆置換デ−タベ−スは必ずしも可逆的な関係である必要はなく、タグ置換デ−タベ−スでは略同一な意味を有する複数の種類のタグを、同一の符号に変換し、タグ逆置換デ−タベ−スでいずれか1種のタグに統一して変換するようにしてもよい。   By the way, the tag substitution database used for substitution and the tag substitution database used for reverse substitution do not necessarily have a reversible relationship, and the tag substitution database has substantially the same meaning. A plurality of types of tags having the above may be converted into the same code, and may be converted into any one type of tag using the tag reverse replacement database.

また、本発明では必ずしも逆置換するステップ(S3−3−1)は必須ではなく、タグ置換デ−タベ−スとして、例えば表4のようなテ−ブルを格納し、不要なタグや特に誤処理する可能性の高いタグのみを除去(NULLに変換)するようにしてもよい。   Further, in the present invention, the reverse substitution step (S3-3-1) is not necessarily required. For example, a table shown in Table 4 is stored as a tag substitution database, and unnecessary tags or particularly erroneous errors are stored. Only tags that are highly likely to be processed may be removed (converted to NULL).

Figure 2007241482
Figure 2007241482

この場合、逆置換を行わないので一部のタグが失われるが、特異書式表示を行うため、必要な文字列についてはより効果的に表示することが可能である。本発明では、ユ−ザに特定の文字列を強調して示すことが目的であるから、本構成も有効に作用しうる。   In this case, since reverse substitution is not performed, some tags are lost, but since a unique format is displayed, a necessary character string can be displayed more effectively. In the present invention, since the purpose is to highlight a specific character string to the user, this configuration can also work effectively.

最後に、特異書式タグを書き込まれたタグ付テキストを表示処理部(105)の作用によってブラウザ表示(S3−5)する。
本発明は、以上に示したとおり、特異表示文字列を抽出する際に、テキストデ−タ中のタグを実施例1から3の方法で置換するものであり、好適に特異表示することを目的としている。
以下、特異表示文字列の抽出処理について、詳細な例を示す。
Finally, the tagged text in which the unique format tag is written is displayed on the browser (S3-5) by the action of the display processing unit (105).
As described above, the present invention replaces the tag in the text data by the method of Embodiments 1 to 3 when extracting the unique display character string, and is intended to suitably display the unique display. It is said.
Hereinafter, a detailed example of the extraction process of the unique display character string will be shown.

(科学記号を抽出する実施例)
まず、特異表示文字列抽出処理部(102)において、科学記号を抽出する処理の例を説述する。本実施例における特異表示文字列抽出処理部(102)の構成図を図9に示す。本図は上記実施例におけるCPU(10)内の特異表示文字列抽出処理部(102)の構成をさらに詳細に示す図であり、CPUにおける処理として科学記号抽出処理部(120)と文字列表示決定処理部(121)を設ける。また、記憶装置(13)には科学記号と発現条件を格納したデ−タベ−ス(122)を備えている。
(Example of extracting scientific symbols)
First, an example of processing for extracting scientific symbols in the unique display character string extraction processing unit (102) will be described. FIG. 9 shows a configuration diagram of the unique display character string extraction processing unit (102) in the present embodiment. This figure is a diagram showing in more detail the configuration of the unique display character string extraction processing unit (102) in the CPU (10) in the above embodiment. As the processing in the CPU, the scientific symbol extraction processing unit (120) and the character string display are shown. A decision processing unit (121) is provided. The storage device (13) is provided with a database (122) storing scientific symbols and expression conditions.

図10に示すように、本処理部(102)に対してタグを待避・除去したタグ待避後テキスト(130)を入力(131)する。最初に入力するタグ付テキスト(2)としては英語等のラテン文字を用いた科学論文の場合に本発明は最も有効に作用する。
そして、該タグ待避後テキスト(130)から化学記号や物理記号、特に元素記号、電子配置、分光記号などの自然科学で用いる記号及び化学式、数式などの式を抽出表示する。本発明ではこれらを総称して科学記号と呼ぶ。
As shown in FIG. 10, the post-tag saving text (130) with the tag saved / removed is input (131) to the processing unit (102). The present invention works most effectively in the case of a scientific paper using Latin characters such as English as the first tagged text (2) to be input.
Then, chemical symbols and physical symbols, in particular symbols used in natural science such as element symbols, electronic arrangements, and spectral symbols, and formulas such as chemical formulas and mathematical formulas are extracted and displayed from the tag saved text (130). In the present invention, these are collectively referred to as scientific symbols.

入力されたテキストデ−タから科学記号抽出処理部(120)において予め科学記号とその発現条件を格納したデ−タベ−ス(122)を参照して科学記号の抽出処理(132)を行う。
図11に示すような元素記号が含まれた論文を入力すると、文頭から各文字列を順に読み出し、デ−タベ−ス(122)に含まれる科学記号情報と照合する。合致する文字列があるとその文字列を抽出し、どのような表示態様で表示をおこなうか決する文字列表示決定処理部(121)にて処理を行う。
From the input text data, the scientific symbol extraction processing unit (120) performs scientific symbol extraction processing (132) with reference to a database (122) in which scientific symbols and their expression conditions are stored in advance.
When a paper including an element symbol as shown in FIG. 11 is input, each character string is read in order from the beginning of the sentence and collated with scientific symbol information included in the database (122). If there is a matching character string, the character string is extracted and processed by a character string display determination processing unit (121) that determines in what display mode the display is to be performed.

ここでデ−タベ−ス(122)の内容例を図12に示す。デ−タベ−スには各元素記号等(140)に対応して、それが単体でテキスト上に発現したときの科学記号である確度(141)が定義されている。例えば水素(H)に対しては0.1、ヘリウム(He)に対しては、0.2、リチウム(Li)に対しては0.5というように定義している。   An example of the contents of the database (122) is shown in FIG. Corresponding to each elemental symbol etc. (140), the database defines an accuracy (141) which is a scientific symbol when it is expressed on the text alone. For example, the definition is 0.1 for hydrogen (H), 0.2 for helium (He), and 0.5 for lithium (Li).

このように各元素に対して確度が異なるのは、元素記号が英単語と一致することがあり、その一致の可能性の大小によって定義しているからである。すなわち、Heの場合、英単語の彼を表すHeと一致しているため、文頭に単独で発現した場合には「He(彼)」か「He(ヘリウム)」かの判断が難しい。そのため確度は0.1となる。一方、ネオン「Ne」の場合、英語で文頭にNeが書かれる場合は極めて希であるから、確度は0.7としている。   The reason why the accuracy is different for each element is that the element symbol may coincide with the English word and is defined by the size of the possibility of the coincidence. That is, in the case of He, it matches with He representing English in the English word, and therefore it is difficult to judge whether it is “He (he)” or “He (helium)” when it appears alone at the beginning of a sentence. Therefore, the accuracy is 0.1. On the other hand, in the case of neon “Ne”, the accuracy is 0.7 because it is extremely rare when Ne is written at the beginning of a sentence in English.

このように確度は対象とする言語によっても異なるため、テキストの言語に応じてそれぞれ定義されることが望ましい。例えば日本語論文の中でHeが発現するのは通常は多くないため、より高い確度を定義してもよいと考えられる。   As described above, since the accuracy varies depending on the target language, it is desirable to define the accuracy according to the language of the text. For example, it is considered that higher accuracy may be defined because He does not usually appear in Japanese papers.

本発明の構成では、以上の確度を取得することにより、文字列表示決定処理部(121)で確度に応じた文字色を決定し、特異書式タグ書き込み処理部(103)で当該文字色に応じたタグを書き込む。
各確度に対する表示色は予め特異表示文字列抽出処理部(102)上に設定する。文字色としては次のような実施形態が挙げられる。
In the configuration of the present invention, the character string display determination processing unit (121) determines the character color corresponding to the accuracy by acquiring the above accuracy, and the singular format tag writing processing unit (103) determines the character color. Write the tag.
The display color for each accuracy is set in advance on the unique display character string extraction processing unit (102). Examples of the character color include the following embodiments.

すなわち、テキストの全文又は一領域が黒色である場合、確度が閾値以上の場合にそれを赤色で表示する一方、閾値よりも低い場合には色を変化させないことができる。この場合、例えば閾値を0.2とするとHは黒色のまま、Heは赤色で表示されることとなる。デ−タベ−ス(122)の通り、元素名を表す英語名称(hydrogenなど)は確度がいずれも1であるから、すべて赤色で表示される。   That is, when the whole text or one area of the text is black, when the accuracy is equal to or higher than the threshold value, it is displayed in red, while when it is lower than the threshold value, the color can not be changed. In this case, for example, when the threshold value is 0.2, H is displayed in black and He is displayed in red. As shown in the database (122), all English names (such as hydrogen) representing element names are displayed in red because the accuracy is all one.

この方法は科学記号が特有な場合には簡便であるが、元素記号のケ−スでは色を変化させられないものや、誤って変化させてしまうものが多く見られる。そのため元素記号などの場合には次のような実施形態をとることが望ましい。
すなわち、確度に応じて表示色を変化させる構成である。この場合に閾値を2個以上備えておき、例えば閾値0.6以上の場合には赤色、0.1以上0.6未満の場合は灰色で表示すると定義しておく。
This method is convenient when scientific symbols are unique, but there are many cases in which the color cannot be changed in the case of element symbols, or in which it is changed accidentally. Therefore, in the case of element symbols, it is desirable to take the following embodiment.
That is, the display color is changed according to the accuracy. In this case, two or more threshold values are provided. For example, it is defined that red is displayed when the threshold is 0.6 or more, and gray is displayed when the threshold is 0.1 or more and less than 0.6.

この場合、Neや元素名称は赤色、それ以外の元素については灰色で表示される。ここで赤色とはテキストを表示する基本文字色(黒色)と色相が異なる色の例であり、色相が異なることで読者は完全に当該文字列を識別することができる。黒色の基本文字色に対してピンク色、黄色なども好適である。
一方、灰色とは基本文字色と明度が異なる色の例である。基本文字色と明度が異なるだけの場合、読者は強い違和感を覚えることがない。特に意識しない限り閲読を妨害しないので快適に閲読することができる。逆に意識をして読むと、明らかに基本文字色と異なるので明確に視認することができる。
In this case, Ne and element names are displayed in red, and other elements are displayed in gray. Here, red is an example of a color that is different in hue from the basic character color (black) for displaying text, and the reader can completely identify the character string because the hue is different. Pink, yellow, etc. are also suitable for the black basic character color.
On the other hand, gray is an example of a color whose brightness is different from the basic character color. Readers do not feel a strong sense of incongruity when the basic text color and brightness are different. Unless you are not particularly conscious, reading is not disturbed, so you can read comfortably. On the contrary, when reading with consciousness, it is clearly different from the basic character color, so it can be clearly seen.

このように本方法によれば、確実に科学記号と判定できるものについては読者に強く提示する一方、不確実なものについては注意を促す程度の表示が可能である。明度と共に彩度を変化させる構成でもよい。
なお、色相、明度、彩度は特異表示文字列抽出処理部(102)で周知の技術により変化させ、モニタ(12)から表示することが可能である。
As described above, according to this method, what can be reliably determined as a scientific symbol is strongly presented to the reader, while uncertain one can be displayed with a level of attention. A configuration in which the saturation is changed together with the brightness may be used.
Note that the hue, brightness, and saturation can be changed by a known technique in the singular display character string extraction processing unit (102) and displayed from the monitor (12).

ここで本発明の特徴として確度を算出する時に発現条件に基づいて行うことが挙げられる。以下にこの点を説述する。
本発明における発現条件とは確度を算出する科学記号がテキストデ−タ中でどのような条件下で発現しているかを定義したものである。例えば上述した例では各元素が「文頭に単独で発現した」ことを条件としている。すなわち文字列表示決定処理部(121)ではピリオド、読点、改行コ−ドなどに基づいてその発現位置が文頭であるか否かを判定する。
Here, as a feature of the present invention, the calculation of accuracy is performed based on expression conditions. This point is described below.
The expression conditions in the present invention are defined under what conditions the scientific symbols for calculating the accuracy are expressed in the text data. For example, in the above-described example, each element is “provided alone at the beginning of a sentence”. That is, the character string display determination processing unit (121) determines whether the expression position is the beginning of a sentence based on a period, a punctuation mark, a line feed code, or the like.

発現条件を用いた確度Yの算出は文字列表示決定処理部(121)において次式に従って行う。   The calculation of the accuracy Y using the expression condition is performed according to the following expression in the character string display determination processing unit (121).

(数1) Y=p(str)+Σai(str)×xi
上記においてp(str)は科学記号候補文字列strの基礎となる確度(141)、ai(str)は科学記号候補文字列strに対するデ−タベ−ス(122)の発現条件iで定められた確度であり、xiは発現条件iに該当するときに1、該当しないときに0をとる。
(Equation 1) Y = p (str) + Σa i (str) × x i
In the above, p (str) is determined by the accuracy (141) that is the basis of the scientific symbol candidate character string str, and a i (str) is determined by the expression condition i of the database (122) for the scientific symbol candidate character string str. X i is 1 when the expression condition i is satisfied, and 0 when it is not.

従って、strが「H」であるとき、後述するように文頭(142)になく(xcap=1)、連接(143)する文字列がなく(xcohere=0)、イオン表記(34)でない(xion=0)場合には、0.1+0.1*1+0.2*0+1*0=0.2が求める確度となる。
なお、上記のxcap 、xcohere 、xionはそれぞれ数1におけるxiの発現条件として「文頭にない」「連接する文字列がある」「イオン表記である」に対応するパラメ−タである。
Therefore, when str is “H”, as will be described later, it is not at the beginning of the sentence (142) (x cap = 1), there is no character string to be connected (143) (x cohere = 0), and it is not the ion notation (34). In the case of (x ion = 0), 0.1 + 0.1 * 1 + 0.2 * 0 + 1 * 0 = 0.2 is the required accuracy.
The above x cap , x cohere , and x ion are parameters corresponding to “not at the beginning”, “concatenated character string”, and “in ion notation” as the expression conditions of x i in Equation 1, respectively. .

タグ待避後テキスト(130)から科学記号抽出処理部(120)で抽出された科学記号候補文字列がピリオド等の直後に配置される場合には文頭に発現したものと判定できるので、上記デ−タベ−ス(122)の文頭位置に対応する各確度を取得する。   If the scientific symbol candidate character string extracted by the scientific symbol extraction processing unit (120) from the text after saving the tag (130) is placed immediately after a period or the like, it can be determined that it has been expressed at the beginning of the sentence. Each accuracy corresponding to the sentence head position of the table (122) is acquired.

しかし、同時にデ−タベ−ス(122)には当該文字列が文頭でない場合の確度を格納している。これに係る項目が図12のcapで表示された欄(142)である。デ−タベ−ス(122)の2行目は、文頭でない位置に「He」が出現した時にその確度は1を加算することを意味している。従って、この場合確度は1.2となる。実際には本実施例では確度が1を最大と規定しており、1を超えた確度は全て1として処理する。   However, at the same time, the database (122) stores the accuracy when the character string is not the beginning of the sentence. The item relating to this is a column (142) displayed by cap in FIG. The second line of the database (122) means that the accuracy is incremented by 1 when “He” appears at a position other than the beginning of the sentence. Therefore, in this case, the accuracy is 1.2. Actually, in this embodiment, the accuracy is defined to be 1 and the accuracy exceeding 1 is processed as 1.

なお、本発明の実施形態としてデ−タベ−ス(122)中に大文字を含む文字列が掲載されている場合には大文字と小文字を掲載されている通りに区別し、小文字だけで表記された文字列については全て小文字の他、全て大文字、それらの混在、いずれも抽出対象としている。
英語の場合には文頭以外に先頭が大文字の文字列が配置されていれば固有名詞等である可能性が高く、このようにすることで1文字目を一般的に大文字で表記する元素記号等を高精度に表示することができる。
As an embodiment of the present invention, when a character string including uppercase letters is published in the database (122), uppercase and lowercase letters are distinguished as shown, and only lowercase letters are described. For character strings, all lowercase letters, all uppercase letters, and a mixture of them are extracted.
In the case of English, if there is a capital letter in addition to the beginning of the sentence, there is a high possibility that it is a proper noun, etc. By doing this, element symbols etc. that generally express the first letter in capital letters, etc. Can be displayed with high accuracy.

本発明の発現条件としては文頭か否かだけでなく、デ−タベ−ス(122)上に掲載された他の文字と分かち書きを行わずに連接して表記されている場合の確度を定義している。本項目は欄(143)のcohereに続く数値でありこれに基づいて確度を算出する。例えばデ−タベ−ス(122)の8行目にあるOの場合、単独で文頭にある場合には確度は0.1であるが、仮にHと連接してOHと記載されていた場合、確度は0.2が加算されて0.3となる。
以上の構成によりOHのように連接した場合には単体のOよりも確度が高く評価されるため、正確な表示を行うことができるようになる。
As expression conditions of the present invention, not only the beginning of a sentence but also the accuracy in the case where it is described in conjunction with other characters posted on the database (122) without being separated are defined. ing. This item is a numerical value following the cohere in the column (143), and the accuracy is calculated based on this value. For example, in the case of O in the eighth line of the database (122), the accuracy is 0.1 when it is alone at the beginning of the sentence, but if it is described as OH concatenated with H, The accuracy is 0.3 by adding 0.2.
With the above configuration, when connected like OH, the accuracy is evaluated to be higher than that of single O, so that accurate display can be performed.

なお、OHのように2個の連接でなく、3個以上の科学記号候補文字列が連接した場合にも確度はそれぞれについて0.2を上限として加算するようにしている。これは、略語など大文字が連続した場合でも必ずしも科学記号とは言えない場合が多いためであり、徒に確度が高まるのを防ぐようにしている。   It should be noted that the accuracy is added up to an upper limit of 0.2 for each case where three or more scientific symbol candidate character strings are concatenated instead of two concatenations such as OH. This is because even if capital letters such as abbreviations are consecutive, they are not necessarily scientific symbols in many cases, and the accuracy is prevented from increasing.

これと関連して、科学記号と判定されやすい特定の文字列について確度を下げるデ−タベ−スを外部記憶装置(13)に備えてもよい。科学記号除外文字列デ−タベ−ス(図示しない)として設け、科学記号抽出処理(132)において該デ−タベ−スと一致した場合には抽出しないようにすることができる。すなわち、Convergent Close-Coupling やSmall Office Home Officeを示すCCC、SOHO等の文字列の場合、これらを構成する文字列はいずれも科学記号であって、連接することから確度が上昇しやすい。しかし、抽出処理の段階で科学記号除外文字列デ−タベ−スに一致した文字列については抽出結果から取り除く処理を行う。
もちろん、科学記号除外文字列デ−タベ−スを用いずに本発明は構成することができる。
In this connection, a database that lowers the accuracy of a specific character string that is easily determined as a scientific symbol may be provided in the external storage device (13). It can be provided as a scientific symbol excluded character string database (not shown) so that it is not extracted when it matches the database in the scientific symbol extraction process (132). That is, in the case of character strings such as CCC and SOHO indicating Convergent Close-Coupling and Small Office Home Office, all of the character strings constituting these are scientific symbols, and the accuracy is likely to increase because they are connected. However, a character string that matches the scientific symbol excluded character string database in the extraction process is removed from the extraction result.
Of course, the present invention can be configured without using the scientific symbol excluded character string database.

あるいは、確度算出処理(133)において、該科学記号除外文字列デ−タベ−スと一致する文字列については確度を0になるように算出処理をおこなってもよい。この場合、科学記号除外文字列デ−タベ−スを別に設けず、上記科学記号及び発現条件を格納したデ−タベ−ス(122)に例えば確度−10として登録しておいてもよい。計算結果で負となる場合に確度0として処理することで、これらの文字列はいずれも確度0となり、科学記号候補から除外される。   Alternatively, in the accuracy calculation processing (133), the calculation processing may be performed so that the accuracy of the character string that matches the scientific symbol excluded character string database is 0. In this case, a scientific symbol exclusion character string database may not be provided separately, and may be registered as accuracy-10, for example, in the database (122) storing the scientific symbols and expression conditions. When the calculation result is negative, the character string is processed with the accuracy of 0, so that all of these character strings have the accuracy of 0 and are excluded from the scientific symbol candidates.

上記構成に加えて、連接する各文字列に対して、連接文字列中で最も確度が高くなる文字列と等しい確度を設定することができる。
上記のOHを例にとると、Oの確度は文頭であってHと連接するため確度は0.3、Hの確度は文頭でなくOと連接することから0.8となる。このような場合、Oの確度は連接文字列中で最も高い0.8と設定する。
本構成により、一連の連接する文字列間で確度に整合性がとれるだけでなく、文字色を確度によって変化させた場合に視認しやすい表示に寄与する。
In addition to the above configuration, it is possible to set an accuracy equal to the character string having the highest accuracy among the connected character strings for each character string to be connected.
Taking the above OH as an example, the accuracy of O is the beginning of the sentence and is connected to H, so the accuracy is 0.3, and the accuracy of H is 0.8 because it is connected to O instead of the beginning of the sentence. In such a case, the accuracy of O is set to 0.8 which is the highest in the concatenated character string.
With this configuration, not only is the accuracy consistent between a series of connected character strings, but it also contributes to a display that is easily visible when the character color is changed according to the accuracy.

科学記号候補文字列の並びについては他にも次のような処理が可能である。
まず、分子構造を表す場合などハイフンを用いて元素を接続することがある。本実施例では上記連接の場合と同様にハイフンで接続された文字列も処理する。このように科学記号を接続するのに用いられる文字記号を予め記憶させておき、該文字記号で接続されている場合には連接しているのと同様の処理を行わせてもよい。
The following processing is also possible for the arrangement of scientific symbol candidate character strings.
First, an element may be connected using a hyphen when expressing a molecular structure. In this embodiment, character strings connected with hyphens are processed as in the case of the above-described connection. In this way, the character symbols used for connecting the scientific symbols may be stored in advance, and if they are connected by the character symbols, the same processing as that of connecting them may be performed.

あるいは上記のように連接した場合に連接文字列中で最も高い確度を各文字列に設定するのではなく、所定の確度以上の文字列と連接する場合に、各確度を上昇させるように構成してもよい。すなわち、デ−タベ−ス(122)に例えばhighという項目を設けて、閾値0.6以上の科学記号候補文字列と連接した場合に、確度+0.7又は0.8を定義する。この場合、上記OHの例で言えば、Hの確度が0.8で閾値以上であるため、Oの確度も例えば0.7加算されて1となる。   Alternatively, it is configured not to set the highest accuracy in the concatenated character string for each character string when concatenated as described above, but to increase each accuracy when concatenating with a character string having a predetermined accuracy or higher. May be. That is, for example, when an item “high” is provided in the database (122) and connected to a scientific symbol candidate character string having a threshold value of 0.6 or more, the accuracy +0.7 or 0.8 is defined. In this case, in the above OH example, the accuracy of H is 0.8, which is equal to or greater than the threshold value.

さらに、連接の概念をより広めて構成することもできる。すなわち、本発明に言う連続とは、科学記号候補文字列が連接した場合、ハイフンで接続された場合に加えて、当該テキストデ−タの言語における接続詞等を用いて接続した場合を含めても良い。英語であれば、複数の名詞を並列する場合に、A,B and Cのように、コンマと文字列andで接続される。
このとき、抽出された科学記号候補文字列間にコンマ又はandやorなどを含む場合に、連接しているのと同様(この場合を並列と呼ぶ。)に処理することができる。
Furthermore, the concept of articulation can be further expanded. That is, the term "continuous" as used in the present invention includes not only the case where scientific symbol candidate character strings are concatenated, the case where they are connected using a hyphen, but also the case where they are connected using a conjunction in the language of the text data. good. In the case of English, when a plurality of nouns are arranged in parallel, a comma and a character string “and” are connected like A, B and C.
At this time, when a comma or and or or is included between the extracted scientific symbol candidate character strings, processing can be performed in the same manner as in the case of connecting them (this case is called parallel).

並列の場合にも、全ての並列する科学記号候補文字列の確度を並列文字列中で最大確度に合わせてもよいし、デ−タベ−ス(122)に定めた値を加算するようにしてもよい。後者の場合には、連接の場合とは異なる数値を定めることもできる。
以上のように連接や並列の場合に、他の科学記号候補文字列の確度を互いに影響させることで高精度な表示を行うことができる。
Even in the case of parallel, the accuracy of all parallel scientific symbol candidate character strings may be matched with the maximum accuracy in the parallel character strings, or the value determined in the database (122) may be added. Also good. In the latter case, a numerical value different from the case of concatenation can be determined.
As described above, in the case of connection or parallel, highly accurate display can be performed by mutually affecting the accuracy of other scientific symbol candidate character strings.

発現条件は対象とする科学記号に合わせて適宜定義することができる。例えば元素記号の場合にはイオンを示すプラス・マイナス記号が付されることが多く、これらが付された場合には極めて高い確度で科学記号と判定できる。
具体的にはタグ待避後テキスト(130)中に、タグなどによって書式指定がされ、In<sup>+</sup>のように、上添字の+によるイオン表記となる科学記号を検出する。同様に(n+)や(n−)(nは任意)などの所定の書式の場合に、図12における欄(144)に従って確度を1とする。
The expression conditions can be appropriately defined according to the target scientific symbol. For example, in the case of an element symbol, a plus / minus symbol indicating an ion is often attached, and when these are attached, it can be determined as a scientific symbol with extremely high accuracy.
Specifically, in the text after saving the tag (130), a format is designated by a tag or the like, and a scientific symbol which is an ion notation by + of the superscript, such as In <sup> + </ sup>, is detected. Similarly, in the case of a predetermined format such as (n +) or (n−) (n is arbitrary), the accuracy is set to 1 according to the column (144) in FIG.

同様に例えば分光記号におけるSPDFなどの文字列や、原子軌道を示すs軌道、p軌道の電子配置、遺伝子の塩基配列におけるA、G、T、C、Uなどの文字列を他の文字との組み合わせで確度を算出するようにしてもよい。
これらの科学記号は文字の記載順序など確立されたル−ルに従って発現するため、本発明のように発現条件を付与可能なデ−タベ−ス(122)を用いることで効果的に抽出することができる。
Similarly, for example, character strings such as SPDF in spectroscopic symbols, electronic arrangements of s orbits indicating atomic orbitals, p orbitals, and character strings such as A, G, T, C, and U in the base sequence of genes are referred to as other characters. The accuracy may be calculated in combination.
Since these scientific symbols are expressed according to established rules such as the order in which letters are written, they can be extracted effectively by using a database (122) to which expression conditions can be applied as in the present invention. Can do.

イオン表記や、他の文字との組み合わせで確度が高くなった科学記号について、同一のテキストデ−タ中で単独で出現した場合にもその確度を上げる処理をおこなってもよい。
すなわち、一度全部のテキストデ−タについて確度算出(133)を行ってイオン表記等による確度の確定を行い、同ステップ(133)内において再び抽出された各科学記号候補文字列について確度の再定義処理を行う。
本処理では、イオン表記など所定の発現条件に合致した文字列について、単独で現れているものを抽出し、その確度に所定値、例えば+0.7を加算する。あるいは、上記イオン表記等で定義された確度と同一値を与えてもよい。
本処理によれば、イオン表記や他の文字との組み合わせの出現によって単体でも現れる蓋然性の高い文字列について高い確度を定義することができる。
For scientific symbols whose accuracy has been increased by combination with ion notation or other characters, a process for increasing the accuracy may be performed even when the symbol appears alone in the same text data.
That is, the accuracy calculation (133) is performed once for all the text data, the accuracy is determined by ion notation, etc., and the accuracy is redefined for each scientific symbol candidate character string extracted again in the same step (133). Process.
In this process, a character string that matches a predetermined expression condition such as ion notation is extracted, and a predetermined value, for example, +0.7 is added to the accuracy. Or you may give the same value as the precision defined by the said ion notation.
According to this process, it is possible to define high accuracy for a character string that has a high probability of appearing alone due to the appearance of a combination with ion notation or other characters.

本発明の別実施例として、図13に示すような形態素解析処理部(150)を備えた特異表示文字列抽出処理部(102)を提供することができる。
形態素解析については公知の技術であり、日本語の形態素解析技術として例えば茶筌(非特許文献2に開示されている)を用いることができる。
As another embodiment of the present invention, a unique display character string extraction processing unit (102) including a morphological analysis processing unit (150) as shown in FIG. 13 can be provided.
Morphological analysis is a well-known technique, and for example, tea bowl (disclosed in Non-Patent Document 2) can be used as a Japanese morphological analysis technique.

http://chasen.aist-nara.ac.jphttp://chasen.aist-nara.ac.jp

また、分かち書きをする英語などのラテン文字を用いるテキストデ−タでは形態素への分割は容易であるがHMMなどの統計的手法により同様に解析処理が行える。形態素解析を用いて品詞を見分けることも行われている。   In addition, text data using Latin characters such as English to be divided can be easily divided into morphemes, but analysis processing can be similarly performed by a statistical method such as HMM. Part of speech is also identified using morphological analysis.

形態素解析処理は図14に示すように前述の実施例における科学記号抽出ステップ(22)の前に行う。このとき周知のように外部記憶装置(13)に格納された形態素解析辞書(152)を用いながら解析する。上記実施例ではデ−タベ−ス(122)に掲載された情報と照合することで科学記号を抽出(132)したが、本実施例では解析の結果得られた形態素と該デ−タベ−ス(122)の内容とを比較して一致するものを抽出(132)する。   The morphological analysis processing is performed before the scientific symbol extraction step (22) in the above-described embodiment as shown in FIG. At this time, as is well known, analysis is performed using the morphological analysis dictionary (152) stored in the external storage device (13). In the above embodiment, scientific symbols are extracted (132) by collating with the information posted in the database (122), but in this embodiment, the morphemes obtained as a result of analysis and the database are extracted. The contents of (122) are compared with each other and a matching one is extracted (132).

形態素解析をすると、形態素の区切りがより正確になるためデ−タベ−ス(122)との照合も確実に行うことができる。さらに形態素解析で各形態素の品詞を取得することができる。これを利用し、デ−タベ−ス(122)に文字列と共に品詞情報を付与し、上記と同様にその場合の確度を定義しておくこともできる。
本構成によると、例えばHeが名詞であれば元素名である確度を高く定義する一方、代名詞であれば科学記号である可能性は極めて低いため確度を0となるように「-10」と定義することもできる。
以上のような別実施例によりさらに高精度なデ−タの表示装置を提供することが可能である。
When the morpheme analysis is performed, the morpheme breaks become more accurate, so the collation with the database (122) can be performed reliably. Furthermore, the part of speech of each morpheme can be acquired by morphological analysis. Using this, part-of-speech information can be added to the database (122) together with the character string, and the accuracy in that case can be defined in the same manner as described above.
According to this configuration, for example, if He is a noun, the accuracy of the element name is defined high, while if it is a pronoun, it is very unlikely to be a scientific symbol, so it is defined as “−10” so that the accuracy is zero. You can also
According to another embodiment as described above, it is possible to provide a data display device with higher accuracy.

さらに本発明では、ある科学記号は特定の文字列と共にテキストデ−タ中に現れるときに、科学記号である確度が高いことに着目して次のような処理を行うこともできる。すなわち、特定の文字列を手がかり表現とし、テキストデ−タ中の同一文あるいは前後所定の形態素数内において科学記号と共起しやすい文字列(手がかり表現)が抽出されるときに、対応する科学記号の確度を高める。本構成は、科学記号抽出処理部(120)において、科学記号を抽出すると共に、図15に示すように手がかり表現テ−ブル(154)を参照して手がかり表現を抽出(153)する。   Further, in the present invention, when a certain scientific symbol appears in text data together with a specific character string, the following processing can be performed by paying attention to the high probability of being a scientific symbol. That is, when a specific character string is used as a clue expression and a character string (cue expression) that is likely to co-occur with a scientific symbol within the same sentence in text data or within a predetermined morpheme number before and after is extracted, Increase the accuracy of the symbol. In this configuration, the scientific symbol extraction processing unit (120) extracts the scientific symbol and extracts (153) the clue expression with reference to the clue expression table (154) as shown in FIG.

手がかり表現テ−ブルには、例えば元素記号と共起しやすい表現である「-like ion」などと、各元素記号との組み合わせを格納しておく。
そして、共起文字列「-like ion」が抽出された場合には、組み合わせとして定義されている各科学記号候補文字列の確度を確度算出(133)において上昇させる。上昇値は上記のようにデ−タベ−ス(122)中に定義しておくか、手がかり表現テ−ブル(共起文字列テ−ブル)(154)中に共起した場合の確度の値を定義しておく。
In the clue expression table, for example, “-like ion” which is an expression that easily co-occurs with an element symbol and a combination of each element symbol are stored.
When the co-occurrence character string “-like ion” is extracted, the accuracy of each scientific symbol candidate character string defined as a combination is increased in the accuracy calculation (133). Ascending value is defined in the database (122) as described above, or the accuracy value when it co-occurs in the clue expression table (co-occurrence character string table) (154) Is defined.

上記では手がかり表現テ−ブルを予め人手によって定義するが、これを自動化して該テ−ブルを構成することもできる。本処理を図16に示す。
本処理には一般的な例文として科学記号を含むテキストコ−パス(155)を用いる。該コ−パスについては公知であり、予めテキスト中の単語列の形態素、品詞等が定義されている。文字列が科学記号か否かも定義されている。
なお、本発明では単語列の形態素、品詞などが定義されていないコ−パスを用いても良く、その場合には公知の形態素解析器(図示しない)や辞書デ−タベ−スを用いてこれらを自動的に付与した後に、次の処理に進んでもよい。
In the above, the clue expression table is defined in advance by hand, but the table can be configured by automating this. This process is shown in FIG.
In this process, a text corpus (155) including a scientific symbol is used as a general example sentence. The corpus is publicly known, and morphemes, parts of speech, etc. of word strings in the text are defined in advance. It is also defined whether the string is a scientific symbol or not.
In the present invention, a corpus in which morphemes, parts of speech, etc. of word strings are not defined may be used, and in this case, these may be performed using a known morphological analyzer (not shown) or a dictionary database. After automatically assigning, may proceed to the next processing.

まず、テキストコ−パス(155)からデ−タベ−ス(122)を参照して科学記号候補文字列を抽出(156)する。
そして、該テキストコ−パス(155)中の当該科学記号候補文字列を含む同一文に共起する文字列(手がかり表現候補)を抽出する。テキストコ−パス(155)内の全文について手がかり表現候補が科学記号候補文字列と共起する回数N1をカウント(157)する。
First, a scientific symbol candidate character string is extracted (156) from the text corpus (155) with reference to the database (122).
Then, a character string (clue expression candidate) that co-occurs in the same sentence including the scientific symbol candidate character string in the text corpus (155) is extracted. The number N1 of times that the clue expression candidate co-occurs with the scientific symbol candidate character string is counted (157) for the entire sentence in the text corpus (155).

次に、当該手がかり表現候補を含む文について、当該科学記号候補文字列が現れない回数N2をカウント(158)する。すなわち、科学記号候補文字列と手がかり表現候補が共起せず手がかり表現候補のみが単独で現れる回数である。
さらに、N2が0でなければN1/N2を算出(159)することにより、共起する割合が所定の閾値以上であるか否かを確認する。N2が0の場合には閾値以上のときと同様に処理を行っても良いし、N1が所定回数、例えば3回以上の場合にだけ同様の処理を行っても良い。
あるいは、N2がすべての場合に適用しうるように、N1/N2の算出(159)に替えてN1/(N1+N2)を算出する構成でもよい。
Next, for the sentence including the clue expression candidate, the number N2 of times that the scientific symbol candidate character string does not appear is counted (158). That is, it is the number of times that the scientific symbol candidate character string and the clue expression candidate do not co-occur and only the clue expression candidate appears alone.
Further, if N2 is not 0, N1 / N2 is calculated (159) to confirm whether the co-occurrence ratio is equal to or greater than a predetermined threshold. When N2 is 0, the processing may be performed in the same manner as when the threshold is equal to or greater than the threshold, or the same processing may be performed only when N1 is a predetermined number of times, for example, 3 times or more.
Alternatively, N1 / (N1 + N2) may be calculated instead of N1 / N2 calculation (159) so that N2 can be applied to all cases.

加えて、上記の回数N1が回数N2よりも有意に大きいことを二項検定などの公知の統計的検定の手法に基づいて確認(160)し、確認が取れた場合に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブル(154)に記録する。   In addition, it is confirmed based on a known statistical test method such as binomial test that the number N1 is significantly larger than the number N2 (160). The combination with the scientific symbol candidate character string is recorded in the clue expression table (154).

本実施例で二項検定を行う方法を説述する。
初期値として、一回の試行で科学記号候補文字列と手がかり表現候補とが共起する確率及び、科学記号候補文字列と手がかり表現候補とが共起せず後者だけが単独で出現する確率をそれぞれ0.5とする。
そして、N1+N2の総出現のうちN2回以下、科学記号候補文字列と手がかり表現候補とが共起せず手がかり表現候補のみが出現した確率を求める。
すなわち、この確率
In this example, a method for performing a binomial test will be described.
As an initial value, the probability that a scientific symbol candidate character string and a clue expression candidate co-occur in one trial and the probability that a scientific symbol candidate character string and a clue expression candidate do not co-occur and only the latter appears alone. Each is 0.5.
Then, the probability that the scientific symbol candidate character string and the clue expression candidate do not co-occur and only the clue expression candidate appears out of N1 + N2 total appearances is obtained.
That is, this probability

(数2)
P1 = Σ C(N1+N2,x) * 0.5x * 0.5N1+N2-x

ただし、Σは、x=0からx=N2の和、C(A,B) は A個の異なったものからB個のものを取り出す場合の数である。
(Equation 2)
P1 = ΣC (N1 + N2, x) * 0.5 x * 0.5 N1 + N2-x

However, Σ is the sum of x = 0 to x = N2, and C (A, B) is the number when B out of A different ones are taken out.

で表され、この確率の値が十分小さければN1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことが判断できる。
そして、5%検定ならば上記P1が5%よりも小さいこと、10%検定ならばP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準となる。
If this probability value is sufficiently small, it can be determined that N1 and N2 are not equivalent probabilities, that is, N1 is significantly larger than N2.
Then, if 5% test, the above P1 is smaller than 5%, and if it is 10% test, P1 is smaller than 10%.

上記では同一文としたが、単に同一文ではなく、共起する表現を前方で連接する単語列(前方1単語列に共起する)や共起する表現を後方で連接する単語列(後方1単語列に共起する)手がかり表現候補に限定してもよい。単語列としては形態素や、形態素の集合を用いることができる。   In the above description, the same sentence is used, but it is not simply the same sentence. It may be limited to clue expression candidates (co-occurring in a word string). A morpheme or a set of morphemes can be used as the word string.

科学記号候補文字列の確度を高精度に算出する別の方法として、次の技術を組み合わせて用いることもできる。
本技術は科学記号候補文字列が、一般的な文章に比して多く出現する場合には当該文字列が科学記号である確度が高いと判定するものである。例えば、leadという文字列を考えたとき、これは科学記号(元素名)である可能性と、「導く」などを意味する英単語である可能性とがある。
As another method for calculating the accuracy of the scientific symbol candidate character string with high accuracy, the following techniques can be used in combination.
In the present technology, when a large number of scientific symbol candidate character strings appear as compared with a general sentence, it is determined that the character string is highly likely to be a scientific symbol. For example, when a character string “lead” is considered, it may be a scientific symbol (element name) or an English word meaning “lead”.

後者の意味の英単語は一般的な文章において頻繁に出現することは少ないが、科学論文において鉛を話題にした文章では頻繁に出現する。この場合、科学記号として処理するのが好適である。
そこで、図17に示すように、まずタグ待避後テキスト(130)から科学記号を抽出したとき、抽出された当該科学記号の個数と該タグ待避後テキスト(130)を構成する全単語数との比、すなわち出現率R1(当該科学記号候補文字列の出現数/全文字列総数)を算出(162)する。
English words with the latter meaning rarely appear frequently in general sentences, but frequently appear in sentences that have discussed lead in scientific papers. In this case, it is preferable to process as a scientific symbol.
Therefore, as shown in FIG. 17, when a scientific symbol is first extracted from the text after saving the tag (130), the number of the extracted scientific symbols and the total number of words constituting the text after saving the tag (130). The ratio, that is, the appearance rate R1 (appearance number of the scientific symbol candidate character string / total number of all character strings) is calculated (162).

次に、一般的なテキストコ−パス(163)(例えば新聞記事)を用いて、同様に該テキストコ−パス(163)における当該科学記号候補文字列の出現数/全文字列総数を算出(164)する。これを出現率R2とする。
そして、出現率の比R1/R2を算出(165)し、所定の閾値より大きいか否かを判定する。
加えて、上記のR1がR2よりも有意に大きいことを比の検定、またはカイ二乗検定などの公知の統計的検定の手法に基づいて確認(160)し、確認が取れた場合(例えばカイ2乗検定で1%水準、又は5%水準等で有意と認められた場合)に、当該手がかり表現候補と科学記号候補文字列との組み合わせを手がかり表現テ−ブル(154)に記録する。
Next, using the general text corpus (163) (for example, newspaper article), the number of occurrences of the scientific symbol candidate character string / total number of all character strings in the text corpus (163) is calculated in the same manner ( 164). This is the appearance rate R2.
Then, an appearance ratio R1 / R2 is calculated (165), and it is determined whether or not the ratio is larger than a predetermined threshold.
In addition, if the above R1 is significantly larger than R2 based on a known statistical test technique such as a ratio test or a chi-square test (160) and confirmed (for example, chi 2 The combination of the candidate clue expression candidate and the scientific symbol candidate character string is recorded in the clue expression table (154) when it is recognized as significant at the 1% level or the 5% level by the multiplication test).

上記カイ2乗検定について説述すると、R1を計算する分母、分子をそれぞれN1、F1とし、R2を計算する分母、分子をそれぞれN2、F2とする。
N=N1+N2として、カイ2乗値は次式により求められる。
Describing the chi-square test, the denominator and numerator for calculating R1 are N1 and F1, respectively, and the denominator and numerator for calculating R2 are N2 and F2, respectively.
As N = N1 + N2, the chi-square value is obtained by the following equation.

(数3)
カイ二乗値 =
(N*(F1*(N2-F2)-(N1- F1)*F2)2)/((F1+F2)*(N-(F1+F2))*N1*N2)
(Equation 3)
Chi-square value =
(N * (F1 * (N2-F2)-(N1- F1) * F2) 2 ) / ((F1 + F2) * (N- (F1 + F2)) * N1 * N2)

そして、このカイ二乗値が大きいほどR1とR2は有意差があると言え、例えばカイ二乗値が3.84よりも大きいとき危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき危険率 1% の有意差があると言える。   And, it can be said that R1 and R2 are more significant as the chi-square value is larger. For example, when the chi-square value is larger than 3.84, it can be said that there is a significant difference of 5%, and the chi-square value is larger than 6.63. Sometimes it can be said that there is a significant difference of 1%.

次に比の検定を用いる場合を説述する。まず、   Next, the case where the ratio test is used will be described. First,

(数4)
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2

と定義する。
そして、2群の比率の差の検定における検定統計量は、
(Equation 4)
p = (F1 + F2) / (N1 + N2)
p1 = R1
p2 = R2

It is defined as
And the test statistic in the difference test between the two groups is

(数5)
Z = |p1-p2|/√(p*(1-p)*(1/N1+1/N2) )

で表される。
このとき、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき危険率5%の有意差があると言え、Zが2.58よりも大きいとき危険率1%の有意差があると言える。
(Equation 5)
Z = | p1-p2 | / √ (p * (1-p) * (1 / N1 + 1 / N2))

It is represented by
At this time, it can be said that the larger Z is, the more significant difference between R1 and R2 is, and when Z is greater than 1.96, there is a significant difference of 5%, and when Z is greater than 2.58, the risk is 1%. It can be said that there is a significant difference.

これらの実施例において確度をデ−タベ−ス(122)に予め定義する構成を説述した。しかし以下のようにテキストデ−タから確度を自動的に修正する構成を用いることもできる。
図18に示すように、テキストを入力(131)した後、科学記号を抽出(132)する際に、タグ待避後テキスト(130)中の科学記号候補文字列の数をカウント(170)する。該カウントはCPUにより公知の方法で実行処理することができる。
In these embodiments, the configuration in which the accuracy is previously defined in the database (122) has been described. However, it is also possible to use a configuration that automatically corrects the accuracy from the text data as follows.
As shown in FIG. 18, when a text is input (131) and then a scientific symbol is extracted (132), the number of scientific symbol candidate character strings in the text (130) after tag saving is counted (170). The count can be executed by a CPU by a known method.

そして、該カウントが予め定めた閾値(例えば500ワ−ド中に5回以上などと定義する)である場合(171)には、デ−タベ−ス(122)に定義された確度を上昇させる書き換え処理(172)を行う。
このように書き換えられたデ−タベ−ス(122)を用いて確度の算出を行うことで、頻繁に出現する文字列については科学記号であるとの判定が出やすくする。本方法が有効であるのは例えば英語の前置詞と元素記号が同一スペルの場合に、そのスペルの文字列が一定以上多い場合には、そのテキストデ−タには当該元素記号に係る内容が含まれている可能性が高く、これらをもれなく抽出表示するためである。
When the count is a predetermined threshold value (for example, defined as 5 times or more in 500 words) (171), the accuracy defined in the database (122) is increased. Rewrite processing (172) is performed.
By calculating the accuracy using the rewritten database (122), it is easy to determine that a character string that appears frequently is a scientific symbol. This method is effective when, for example, the English preposition and the element symbol have the same spelling, and if the spelling character string is more than a certain amount, the text data contains the contents related to the element symbol. This is because they are likely to be extracted and displayed without exception.

また、NやOなどの大文字1文字の場合にも有効であり、文頭以外の場所に頻繁にこれらの文字が発現する場合には、文頭に発現した際にも科学記号であるとの判定が出やすくなる。   It is also effective for single uppercase letters such as N and O. When these characters frequently appear in places other than the beginning of the sentence, it is determined that they are scientific symbols even when they appear at the beginning of the sentence. It becomes easy to come out.

なお補足すると、デ−タベ−ス(122)には確度ではなく表示色を直接定義してもよい。この場合、発現条件毎に表示色を直接定義し、上記同様の効果を奏する。
また、本実施例では表示色を変更する構成を開示したが、色ではなく書式を変化させる構成でもよい。周知のようにテキストデ−タの表示態様としては文字フォントの変更や下線の付与、網掛け表示、括弧による範囲表示などが知られており、これらを用いて文字色を変化させる代わりに所望の範囲を読者に表示することができる。
As a supplement, the display color may be directly defined in the database (122) instead of the accuracy. In this case, the display color is directly defined for each expression condition, and the same effect as described above is obtained.
Moreover, although the structure which changes a display color was disclosed in the present Example, the structure which changes a format instead of a color may be sufficient. As is well known, the display mode of text data is known to change the character font, add underline, shaded display, range display with parentheses, etc. The range can be displayed to the reader.

以下には、本発明の具体的な実施例として、表示色と各科学記号候補文字列の判定ル−ルについて説述する。
図19は、本発明における表示色の定義である。図示のように、ル−ル1,3,4,5,6,7,8を定め、それぞれにル−ル1では原子・分子・イオンを表現する場合に桃色で表示すること、ル−ル3では電子配置の表現に黄色で表示すること、のように定義している。
なお、ル−ル2は欠番である。
Hereinafter, as specific examples of the present invention, a display color and a determination rule for each scientific symbol candidate character string will be described.
FIG. 19 is a definition of display colors in the present invention. As shown in the figure, rules 1, 3, 4, 5, 6, 7, and 8 are defined, and each of the rules 1 is displayed in pink when expressing atoms, molecules, and ions. 3 is defined as displaying in yellow in the expression of the electronic arrangement.
Note that rule 2 is a missing number.

上述した発現条件と関連して、ル−ル1の判定には電子eや、+/-の上下添字、原子名に上下添字、IVXivxの表現、"like"/"ic"についても同様に桃色で表示することを定義する。
ル−ル3の判定では、「数字*」(*はあってもなくても良いことを示す。以下同じ。)「s/p/d/f/g」「上下添字*」の一回以上の繰り返しでかつ、数字が少なくとも1回は含まれることを条件とする。
In relation to the expression conditions described above, the rule 1 is judged by the electron e, +/- upper and lower subscripts, atomic name upper and lower subscripts, IVXivx expressions, and "like" / "ic" as well. It is defined to be displayed with.
In rule 3, “number *” (* indicates that it may or may not be present; the same shall apply hereinafter) “s / p / d / f / g” “upper and lower subscripts *” one or more times As long as the number is included at least once.

ル−ル4の判定では、「上下添字*」「S/P/D/F/G」「上下添字*」の一回以上の繰り返しでかつ、「上下添字」が少なくとも1回は含まれることを条件とする。
また、上記ル−ル1と競合した場合は下のより厳密な規則を採用する。
すなわち、「上添字*」「S/P/D/F/G」「下添字*」の一回以上の繰り返しでかつ、添字の中身は1から4に限られ、上下添字のいずれかは出現する条件とする。
In Rule 4, the “upper and lower subscripts *”, “S / P / D / F / G”, and “upper and lower subscripts *” must be repeated one or more times, and the “upper and lower subscripts” must be included at least once. As a condition.
Also, when competing with the above rule 1, the stricter rule below is adopted.
In other words, “upper subscript *”, “S / P / D / F / G”, and “subscript subscript *” are repeated one or more times, and the subscript content is limited to 1 to 4, and either upper or lower subscript appears. It is a condition to do.

ル−ル5の判定では、「n/l」「=/</>」の一回以上の繰り返しや、数字を条件として水色で表示する。
ル−ル6の判定では、「(ル−ル3の表現)のゼロ回以上の繰り返し」「数字/n/n-bar l」が出現した場合に、橙色で表示する。
In the determination of rule 5, “n / l”, “= / </>” is repeated one or more times, and the number is displayed in light blue as a condition.
In the determination of rule 6, when “(repetition of rule 3) zero or more times” “number / n / n-bar l” appears, it is displayed in orange.

ル−ル7の判定では、英語アルファベット大文字一文字からなる原子名について、まわりに手がかり表現(-like ion等)などがなければ、原子名でない可能性が高いと判断してル−ル7に分類する。また、英語アルファベット大文字一文字からなる原子名が連続した表現や"Rev"、の場合にも手がかり表現がなければ同様にル−ル7に分類する。
As,In,At,Heが文頭に出現した場合、前置詞や代名詞の可能性が高いためル−ル7に分類する。
In rule 7, if an atom name consisting of a single uppercase letter of the English alphabet is not indicated by a clue expression (such as -like ion), it is determined that it is highly likely that it is not an atom name, and is classified as rule 7. To do. Also, in the case of an expression in which atomic names consisting of one uppercase letter of the English alphabet or “Rev” are consecutive, if there is no clue expression, it is similarly classified into rule 7.
When As, In, At, and He appear at the beginning of a sentence, they are classified as rule 7 because there is a high possibility of prepositions and pronouns.

さらに以上のような表示色のル−ルによっていずれの条件にも合致しなかったものの、科学記号候補文字列として抽出されたものをル−ル8とし、濃い灰色で表示した。
以上のような表示色のル−ルは、上記確度の算出結果に連動しており、デ−タベ−ス(122)の構成を適切に設計することによって実現している。
Further, although none of the conditions was met by the display color rule as described above, the one extracted as the scientific symbol candidate character string was designated as rule 8 and displayed in dark gray.
The display color rule as described above is linked to the accuracy calculation result, and is realized by appropriately designing the configuration of the database (122).

(文書差分を抽出する実施例)
本発明の特異表示文字列抽出部(102)の処理に、本件出願人が特許文献2で記載した文書差分検出装置の構成を用いることができる。
すなわち、図20は本実施例における特異表示文字列抽出部(102)の原理説明図である。特異表示文字列抽出部(102)には抽出・検出領域設定部(180)が設けられ、格納手段(13)が接続されている。
(Example of extracting document differences)
For the processing of the unique display character string extraction unit (102) of the present invention, the configuration of the document difference detection apparatus described in Patent Document 2 by the applicant can be used.
That is, FIG. 20 is an explanatory diagram of the principle of the unique display character string extraction unit (102) in this embodiment. The unique display character string extraction unit (102) is provided with an extraction / detection region setting unit (180), and is connected to a storage means (13).

詳細はすでに特許文献2に開示されているが、抽出・検出領域設定部(180)は、テキストデ−タの差分として出力する対象の単位である抽出単位とテキストデ−タの差分を検出するために比較する領域の単位である検出領域とをキ−ボ−ドやマウス等の入力手段(11)からの入力された設定情報、又はメモリ又は外部記憶装置(13)からなる記憶部に記録された設定情報のいずれかに基づいて設定する。   Although details have already been disclosed in Patent Document 2, the extraction / detection area setting unit (180) detects the difference between the extraction unit and the text data, which is a unit to be output as the difference between the text data. Therefore, the detection area, which is a unit of the area to be compared, is recorded in the setting information inputted from the input means (11) such as a keyboard or a mouse, or in the storage unit comprising the memory or the external storage device (13). Set based on any of the set information.

抽出単位としては、「単語」「漢字」「名詞句」などが考えられる。また、検出領域の単位とは、差分を検出するために比較する領域の単位のことである。検出領域の単位には、「文字」「単語」「文」「箇条書きの項目」「段落」などを用いることができる。   As extraction units, “word”, “kanji”, “noun phrase”, and the like can be considered. Further, the unit of the detection area is a unit of the area to be compared in order to detect the difference. As the unit of the detection area, “character”, “word”, “sentence”, “item of bullet”, “paragraph”, and the like can be used.

なお、本発明では必ずしも抽出・検出領域設定部(180)を設けずに予め抽出単位と検出領域を定義しておき、処理の度に設定しないように構成してもよい。   In the present invention, the extraction unit and the detection area may be defined in advance without necessarily providing the extraction / detection area setting unit (180), and may not be set for each processing.

(1)該構成において、特異表示文字列抽出部(102)は、入力されたテキストデ−タの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して該格納部(13)に格納し、現在の該検出領域において、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列として抽出すると共に、該抽出部の処理を該検出領域ごとに繰り返す。 (1) In this configuration, the singular display character string extraction unit (102) extracts and stores all the units corresponding to the extraction unit from the area other than the current detection area of the input text data. A part corresponding to the extraction unit that is stored in the part (13) and not stored in the storage part in the current detection area is extracted as a unique display character string, and the processing of the extraction part is performed for each detection area Repeat.

(2)あるいは、特異表示文字列抽出部(102)が、入力されたテキストデ−タの現在の前記検出領域において、前記格納部(13)に格納されていない前記抽出単位に相当するものを強調表示して現在の検出領域の文書を出力し、前記強調表示したものを前記格納部(13)に格納することを、前記検出領域ごとに繰り返す。このため、新しく出現する抽出単位に相当するもの(例えば単語)を容易に抽出して表示することができる。 (2) Alternatively, the unique display character string extraction unit (102) corresponds to the extraction unit that is not stored in the storage unit (13) in the current detection area of the input text data. The highlighted display of the document in the current detection area and the storage of the highlighted display in the storage unit (13) are repeated for each detection area. For this reason, it is possible to easily extract and display a unit corresponding to a newly appearing extraction unit (for example, a word).

(3)前記(1)又は(2)の特異表示文字列抽出部(102)において、前記格納部(13)に予め前記強調表示しない前記抽出単位のデ−タを格納する。このため、予めそれほど重要でない表現を強調表示しないようにでき、見やすくすることができる。 (3) In the unique display character string extraction unit (102) of (1) or (2), the storage unit (13) stores in advance the data of the extraction unit that is not highlighted. For this reason, expressions that are not so important in advance can be prevented from being highlighted and can be easily viewed.

(4)前記(1)〜(3)の特異表示文字列抽出部(102)において、前記抽出単位として、単語の単位とする。このため、新しく出現する単語を抽出表示することができる。 (4) In the unique display character string extraction unit (102) of (1) to (3), a word unit is used as the extraction unit. For this reason, a newly appearing word can be extracted and displayed.

(5):前記(1)〜(4)の特異表示文字列抽出部(102)において、前記検出領域の単位として、箇条書きの単位とする。このため、箇条書き間の違いを容易に理解することができる。 (5): In the unique display character string extraction unit (102) of (1) to (4), the unit of the itemized list is set as the unit of the detection area. For this reason, the difference between the bullets can be easily understood.

(6):前記(1)〜(4)の特異表示文字列抽出部(102)において、前記検出領域の単位として、特許請求の範囲の単位とする。このため、特許請求の範囲の特徴や違いを容易に理解することができる。 (6): In the unique display character string extraction unit (102) of (1) to (4), a unit of the claims is used as a unit of the detection region. For this reason, the features and differences of the claims can be easily understood.

(キ−ワ−ドを抽出する実施例)
本発明の特異表示文字列抽出部(102)の処理に、本件出願人が特許文献3で記載したキ−ワ−ド強調装置の構成を用いることができる。
すなわち、図21は本実施例における特異表示文字列抽出部(102)の原理説明図である。特異表示文字列抽出部(102)には抽出単位設定部(181)、抽出表現設定部(182)、抽出領域設定部(183)が設けられ、格納手段(13)が接続されている。
(Example of extracting a keyword)
For the processing of the unique display character string extraction unit (102) of the present invention, the configuration of the keyword emphasis device described in Patent Document 3 by the applicant can be used.
That is, FIG. 21 is an explanatory diagram of the principle of the unique display character string extraction unit (102) in this embodiment. The unique display character string extraction unit (102) is provided with an extraction unit setting unit (181), an extraction expression setting unit (182), and an extraction region setting unit (183), and is connected to a storage means (13).

(A)抽出単位設定部(181)は抽出の単位を設定し、抽出表現設定部(182)は特異書式で表示する抽出表現を設定する。抽出領域設定部(183)は抽出領域の場所を設定する。
該構成において特異表示文字列抽出部(102)が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデ−タ中に現在の該抽出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特異表示文字列として抽出する。
(A) The extraction unit setting unit (181) sets an extraction unit, and the extraction expression setting unit (182) sets an extraction expression to be displayed in a unique format. The extraction area setting unit (183) sets the location of the extraction area.
In this configuration, the unique display character string extraction unit (102) extracts a unit corresponding to the unit of extraction from the extraction region, stores a part corresponding to the extracted expression in the storage unit, and stores the text data. If the same one corresponding to the current unit of extraction is stored in the storage unit, it is extracted as a unique display character string.

なお、本発明では抽出単位設定部(181)を用いずに予め抽出の単位を定義しておいて、処理の度に抽出の単位を設定しないようにすることもできる。   In the present invention, an extraction unit may be defined in advance without using the extraction unit setting unit (181), and the extraction unit may not be set every time processing is performed.

(B)前記(A)の特異表示文字列抽出部(102)において、入力されたデ−タをデ−タ前方から調べて、現在の抽出の単位に相当するものと同じものが前記格納手段に格納されている場合で、一つ前の抽出の単位が強調表示されるものである場合は、前記一つ前の抽出の単位と現在の抽出の単位に相当するものを特別強調表示するため抽出する。このため、入力されたデ−タ中で抽出領域の説明に該当する場所をより明確に見つけることができる。 (B) In the singular display character string extraction unit (102) of (A), the input data is checked from the front of the data, and the same as the unit corresponding to the current extraction unit is the storage means. If the previous extraction unit is highlighted, the unit corresponding to the previous extraction unit and the current extraction unit are specially highlighted. Extract. Therefore, it is possible to more clearly find a place corresponding to the explanation of the extraction area in the input data.

(C)前記(A)〜(B)の特異表示文字列抽出部(102)において、前記抽出表現設定部(182)で強調表示する抽出表現の設定の少なくとも1つが名詞である。このため、名詞等の重要なもののみ強調表示することができる。 (C) In the unique display character string extraction unit (102) of (A) to (B), at least one of the settings of the extracted expression to be highlighted by the extracted expression setting unit (182) is a noun. For this reason, only important things such as nouns can be highlighted.

(D)前記(A)〜(C)の特異表示文字列抽出部(102)において、前記抽出領域の場所として、入力されたデ−タのタイトル部分とする。このため、入力されたデ−タ中で重要なものとされているタイトル部分の説明に該当する場所を容易に見つけることができる。 (D) In the unique display character string extraction unit (102) of (A) to (C), the place of the extraction area is the title portion of the input data. For this reason, it is possible to easily find a place corresponding to the description of the title portion regarded as important in the input data.

(E):前記(A)〜(C)の特異表示文字列抽出部(102)において、前記抽出領域の場所として、入力されたデ−タのユ−ザが指定した部分とする。このため、入力されたデ−タ中でユ−ザが指定した部分の説明に該当する場所を容易に見つけることができる。 (E): In the singular display character string extraction unit (102) of (A) to (C), a place specified by the user of input data is set as the location of the extraction area. Therefore, it is possible to easily find a place corresponding to the description of the part designated by the user in the input data.

(F):前記(E)の特異表示文字列抽出部(102)において、前記ユ−ザが指定した部分として、複数部分を指定し、該指定した部分により、異なる強調表示をする。このため、入力されたデ−タ中でユ−ザが指定した複数部分の説明に該当する場所を容易に見つけることができる。 (F): In the unique display character string extraction unit (102) of (E), a plurality of parts are designated as the parts designated by the user, and different highlights are displayed depending on the designated parts. Therefore, it is possible to easily find a place corresponding to the explanation of the plurality of parts designated by the user in the input data.

(G):前記(E)又は(F)の特異表示文字列抽出部(102)において、入力されたデ−タのうちで初めて出てくる抽出の単位に相当するものを強調表示する前述の文書差分検出装置の構成(文書差分検出機構)を備え、ユ−ザが指定した部分として、該機構が強調表示した部分を指定する。このため、入力されたデ−タ中でユ−ザが指定した部分の説明に該当する場所をより明確に見つけることができる。 (G): The above-described unique display character string extraction unit (102) of (E) or (F) highlights the input data corresponding to the unit of extraction that appears for the first time. A document difference detection apparatus configuration (document difference detection mechanism) is provided, and a portion highlighted by the mechanism is designated as a portion designated by the user. For this reason, it is possible to more clearly find a place corresponding to the description of the part designated by the user in the input data.

(H):前記(E)又は(F)の特異表示文字列抽出部(102)において、入力されたデ−タの差分を検出するために比較する領域の単位である検出領域を設定し、入力されたデ−タの現在の検出領域以外の領域から全ての前記抽出の単位に相当するものを抽出し、現在の検出領域において、検出領域以外の領域にない抽出の単位に相当するものを強調表示する文書差分検出機構を備え、前記ユ−ザが指定した部分として、該機構が強調表示した部分を指定する。このため、入力されたデ−タ中でユ−ザが指定した部分の説明に該当する場所をより明確に見つけることができる。 (H): In the singular display character string extraction unit (102) of (E) or (F), a detection area that is a unit of an area to be compared in order to detect a difference of input data is set. Extracting all the extraction units corresponding to the above-mentioned extraction unit from the region other than the current detection region of the input data, and corresponding to the extraction unit not existing in the region other than the detection region in the current detection region A document difference detection mechanism for highlighting is provided, and a portion highlighted by the mechanism is designated as the portion designated by the user. For this reason, it is possible to more clearly find a place corresponding to the description of the part designated by the user in the input data.

(I):特異表示文字列抽出部(102)に抽出の単位を設定する抽出単位設定部(181)と、抽出領域の場所を設定する抽出領域設定部(182)と、入力されたデ−タのうちで初めて出てくる前記抽出の単位に相当するものを強調表示する文書差分検出機構(図示しない)とを備え、情報を格納する格納手段(13)とを接続する。
そして、特異表示文字列抽出部(102)が、抽出領域の場所として文書差分検出機構が強調表示した部分とし、抽出領域より抽出の単位に相当するものを抽出して格納手段(13)に格納し、入力されたデ−タを前方から調べて現在の前記抽出の単位に相当するものと同じものが、前記格納手段(13)に格納されている場合は、それを強調表示のため抽出する。このため、入力されたデ−タ中で初めて出てくる単語等の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に見つけることができる。
(I): An extraction unit setting unit (181) for setting an extraction unit in the unique display character string extraction unit (102), an extraction region setting unit (182) for setting the location of the extraction region, and the input data A document difference detection mechanism (not shown) for highlighting the one corresponding to the extraction unit appearing for the first time, and connected to storage means (13) for storing information.
Then, the unique display character string extraction unit (102) extracts the part corresponding to the unit of extraction from the extraction area as the extracted area location highlighted by the document difference detection mechanism and stores it in the storage means (13). Then, when the input data is checked from the front and the same data corresponding to the current unit of extraction is stored in the storage means (13), it is extracted for highlighting. . For this reason, it is possible to clearly find a place corresponding to the explanation of the portion corresponding to the unit of extraction of the word or the like appearing for the first time in the input data by simple means.

(J):特異表示文字列抽出部(102)に抽出の単位を設定する抽出単位設定部(181)と、抽出領域の場所を設定する抽出領域設定部(182)とを備え、情報を格納する格納手段(13)を接続する。
特異表示文字列抽出部(102)が、入力されたデ−タの差分を検出するために比較する領域の単位である検出領域を設定し、入力されたデ−タの現在の検出領域以外の領域から全ての抽出の単位に相当するものを抽出する。そして、現在の検出領域において、検出領域以外の領域にない抽出の単位に相当するものを強調表示する文書差分検出機構(図示しない)を備える。
抽出領域の場所として該機構が強調表示した部分とし、抽出領域より抽出の単位に相当するものを抽出して格納手段(13)に格納し、入力されたデ−タを前方から調べて現在の抽出の単位に相当するものと同じものが、格納手段(13)に格納されている場合は、それを強調表示する。このため、入力されたデ−タ中で初めて出てくる単語等の抽出の単位に相当する部分の説明に該当する場所を簡単な手段で明確に見つけることができる。
(J): The unique display character string extraction unit (102) includes an extraction unit setting unit (181) for setting an extraction unit and an extraction region setting unit (182) for setting the location of the extraction region, and stores information. The storage means (13) to be connected is connected.
The unique display character string extraction unit (102) sets a detection area which is a unit of an area to be compared in order to detect a difference between the input data, and sets a detection area other than the current detection area of the input data. Extract all the units corresponding to the extraction unit from the region. In addition, a document difference detection mechanism (not shown) that highlights an extraction unit that is not present in any region other than the detection region in the current detection region is provided.
As the location of the extraction region, the part highlighted by the mechanism is extracted, and the portion corresponding to the unit of extraction is extracted from the extraction region and stored in the storage means (13). If the same unit as the unit of extraction is stored in the storage means (13), it is highlighted. For this reason, it is possible to clearly find a place corresponding to the explanation of the portion corresponding to the unit of extraction of the word or the like appearing for the first time in the input data by simple means.

本発明では、以上説述したとおり、特異表示文字列抽出処理部(102)に科学記号を抽出する機構、文書差分を検出する機構、キ−ワ−ドを抽出する機構を用いたときに、各機構の処理時にタグの影響を抑制し、高精度かつ高速な処理を可能にするものである。
特にインタ−ネットのウェブブラウザに上記したようなボタンを表示させ、ユ−ザが随意に特異表示を切り替えられるようにすることで、各機構による表示効果を最大限に利用することができる。
In the present invention, as described above, when the mechanism for extracting scientific symbols, the mechanism for detecting document differences, and the mechanism for extracting keywords are used in the unique display character string extraction processing unit (102), The influence of the tag is suppressed during processing of each mechanism, and high-precision and high-speed processing is possible.
In particular, by displaying the above-described buttons on an Internet web browser so that the user can arbitrarily switch the unique display, the display effect of each mechanism can be utilized to the maximum.

本発明のデ−タ表示装置(第1実施例)の全体構成図である。1 is an overall configuration diagram of a data display device (first embodiment) according to the present invention. 本発明のデ−タ表示方法(第1実施例)の流れ図である。It is a flowchart of the data display method (1st Example) of this invention. 本発明におけるタグ待避の様子を示す図である。It is a figure which shows the mode of tag evacuation in this invention. 本発明によるウェブブラウザの表示画面を示す説明図である。It is explanatory drawing which shows the display screen of the web browser by this invention. 本発明のデ−タ表示装置(第2実施例)の全体構成図である。It is a whole block diagram of the data display apparatus (2nd Example) of this invention. 本発明のデ−タ表示方法(第2実施例)の流れ図である。It is a flowchart of the data display method (2nd Example) of this invention. 本発明のデ−タ表示装置(第3実施例)の全体構成図である。It is a whole block diagram of the data display apparatus (3rd Example) of this invention. 本発明のデ−タ表示方法(第3実施例)の流れ図である。It is a flowchart of the data display method (3rd Example) of this invention. 本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図である。It is a block diagram of the specific display character string extraction process part which extracts the scientific symbol used by this invention. 本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図である。It is a flowchart of the specific display character string extraction process which extracts the scientific symbol used by this invention. 本発明で用いる論文デ−タの一例である。It is an example of the paper data used by this invention. 図9のデ−タベ−スの内容例である。It is an example of the contents of the database of FIG. 本発明で用いる科学記号を抽出する特異表示文字列抽出処理部の構成図(別実施例)である。It is a block diagram (another Example) of the specific display character string extraction process part which extracts the scientific symbol used by this invention. 本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図(別実施例)である。It is a flowchart (another Example) of the unique display character string extraction process which extracts the scientific symbol used by this invention. 本発明で用いる科学記号を抽出する特異表示文字列抽出処理の流れ図(別実施例)である。It is a flowchart (another Example) of the unique display character string extraction process which extracts the scientific symbol used by this invention. テキストコ−パスから手がかり表現テ−ブルを構築する処理の流れ図である。It is a flowchart of the process which builds a clue expression table from a text corpus. タグ待避後テキストから手がかり表現テ−ブルを構築する処理の流れ図である。It is a flowchart of the process which builds a clue expression table from the text after tag saving. テキストデ−タから確度を自動的に修正する処理の流れ図である。It is a flowchart of the process which corrects an accuracy automatically from text data. 本発明における表示色の定義である。It is a definition of the display color in this invention. 本発明で用いる文書差分を検出する特異表示文字列抽出処理部の構成図である。It is a block diagram of the specific display character string extraction process part which detects the document difference used by this invention. 本発明で用いるキ−ワ−ドを抽出する特異表示文字列抽出処理部の構成図である。It is a block diagram of the peculiar display character string extraction process part which extracts the keyword used by this invention.

符号の説明Explanation of symbols

1 デ−タ表示装置
2 タグ付テキスト
10 CPU
11 キ−ボ−ド・マウス
12 モニタ
13 記憶装置
14 ネットワ−クアダプタ
100 タグ抽出処理部
101 タグ待避処理部
102 特異表示文字列抽出処理部
103 特異書式タグ書き込み処理部
104 タグ復帰処理部
105 表示処理部
S1−1 タグを抽出する処理
S1−2 タグを待避する処理
S1−3 特異表示する文字列を抽出する処理
S1−4 特異書式タグを書き込む処理
S1−5 タグを復帰させる処理
S1−6 ブラウザで表示させる処理
1 Data display device 2 Text with tag 10 CPU
11 Keyboard / Mouse 12 Monitor 13 Storage Device 14 Network Adapter 100 Tag Extraction Processing Unit 101 Tag Save Processing Unit 102 Singular Display Character String Extraction Processing Unit 103 Singular Format Tag Write Processing Unit 104 Tag Recovery Processing Unit 105 Display Processing unit S1-1 Processing for extracting a tag S1-2 Processing for saving a tag S1-3 Processing for extracting a character string to be uniquely displayed S1-4 Processing for writing a unique format tag S1-5 Processing for returning a tag S1-6 Processing to display in browser

Claims (17)

少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示装置であって、
該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、
該抽出された書式設定タグをそのテキストデ−タ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデ−タから除去するタグ待避処理を行うタグ待避処理手段と、
タグ待避後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込み処理手段と、
該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデ−タに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰処理手段と、
該書式設定タグに従ってテキストデ−タを表示する表示処理手段と
を備えたことを特徴とするデ−タ表示装置。
A data display device capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
Tag extraction processing means for extracting at least a part of the formatting tag from the text data;
Tag extraction processing means for storing the extracted formatting tag together with position information in the text data in tag storage means, and performing tag saving processing for removing the formatting tag from the text data;
A singular display character string extraction processing means for extracting a character string to be displayed using the singular format from the text data after saving the tag;
Singular format tag writing processing means for writing a format setting tag corresponding to the singular format into text data;
A tag return processing means for performing a tag return process for reading the formatting tag and position information from the tag storage means and writing the formatting tag according to the position information to the text data output from the singular format tag writing processing means;
And a display processing means for displaying text data in accordance with the formatting tag.
少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示装置であって、
該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、
該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換処理手段と、
タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込み処理手段と、
タグ序列置換処理手段により置換された文字を、該タグ序列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換処理手段を備え、
該書式設定タグに従ってテキストデ−タを表示する表示処理手段と
を備えたことを特徴とするデ−タ表示装置。
A data display device capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
Tag extraction processing means for extracting at least a part of the formatting tag from the text data;
A tag sequence replacement processing means for replacing the extracted formatting tag with a predetermined replacement character and storing the replaced formatting tag in the tag order storage means in the order of appearance;
Singular display character string extraction processing means for extracting a character string to be displayed using the singular format from the text data after tag substitution;
Singular format tag writing processing means for writing a format setting tag corresponding to the singular format into text data;
A tag sequence reverse replacement processing unit that replaces the characters replaced by the tag sequence replacement processing unit with the formatting tags read in order from the tag sequence storage unit again in the order of the sequence;
And a display processing means for displaying text data in accordance with the formatting tag.
前記所定の置換文字が、序列のある文字である
請求項2に記載のデ−タ表示装置。
The data display device according to claim 2, wherein the predetermined replacement character is an ordered character.
少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示装置であって、
該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出処理手段と、
該抽出された書式設定タグを予め備えたタグ置換デ−タベ−スに基づいて所定の符号に置換するタグ置換処理手段と、
タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出処理手段と、
該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込み処理手段と、
該書式設定タグに従ってテキストデ−タを表示する表示処理手段と
を備えたことを特徴とするデ−タ表示装置。
A data display device capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
Tag extraction processing means for extracting at least a part of the formatting tag from the text data;
Tag replacement processing means for replacing the extracted formatting tag with a predetermined code based on a tag replacement database provided in advance;
Singular display character string extraction processing means for extracting a character string to be displayed using the singular format from the text data after tag substitution;
Singular format tag writing processing means for writing a format setting tag corresponding to the singular format into text data;
And a display processing means for displaying text data in accordance with the formatting tag.
前記デ−タ表示装置が、
タグ置換処理手段により置換された符号から予め備えたタグ逆置換デ−タベ−スに基づいて所定の書式設定タグに置換するタグ逆置換処理手段を備え、
前記表示処理手段によるテキストデ−タの表示を行う
請求項4に記載のデ−タ表示装置。
The data display device comprises:
A tag reverse replacement processing means for replacing the code replaced by the tag replacement processing means with a predetermined formatting tag based on a tag reverse replacement database prepared in advance;
The data display device according to claim 4, wherein the display processing means displays text data.
前記デ−タ表示装置が、
特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能な表示状態設定手段を備える
請求項1ないし5のいずれかに記載のデ−タ表示装置。
The data display device comprises:
6. The data display device according to claim 1, further comprising display state setting means capable of switching between a singular display state in which display using a singular format and a normal display state in which normal display is performed.
前記表示状態設定手段が、前記表示処理部によりテキストデ−タを表示する表示領域の近接領域に配置される
請求項1ないし6のいずれかに記載のデ−タ表示装置。
The data display device according to any one of claims 1 to 6, wherein the display state setting means is arranged in a region close to a display region where text data is displayed by the display processing unit.
前記特異書式タグ書き込み処理手段において、
特異書式としてテキストデ−タの基本文字色と異なる表示色を設定する書式設定タグを書き込む
請求項1ないし7のいずれかに記載のデ−タ表示装置。
In the unique format tag writing processing means,
8. The data display device according to claim 1, wherein a format setting tag for setting a display color different from the basic character color of the text data is written as a unique format.
前記テキストデ−タが少なくとも自然科学で用いられる記号又は式(以下、科学記号と呼ぶ)を含む構成において、
前記特異表示文字列抽出処理手段が、
科学記号として用いる1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号デ−タベ−スと、
該科学記号デ−タベ−スを参照して該テキストデ−タから科学記号候補文字列を抽出する科学記号抽出処理部と、
該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理部とを備え、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項1ないし8のいずれかに記載のデ−タ表示装置。
In the configuration in which the text data includes at least symbols or formulas used in natural science (hereinafter referred to as scientific symbols),
The singular display character string extraction processing means,
A scientific symbol database in which one or more character strings to be used as scientific symbols and expression conditions for expressing the character strings are stored in advance;
A scientific symbol extraction processing unit for extracting a scientific symbol candidate character string from the text data with reference to the scientific symbol database;
A character string display determination processing unit that determines a display mode of the scientific symbol candidate character string in comparison with the expression condition,
The singular format tag writing processing means,
9. The data display device according to claim 1, wherein a formatting tag according to the display mode is written.
前記デ−タ表示装置がテキストの差分を検出して表示する構成において、
前記特異表示文字列抽出処理手段が、
テキストデ−タの差分として出力する対象の単位である抽出単位とテキストデ−タの差分を検出するために比較する領域の単位である検出領域とについて、予め定義されているか、入力部と抽出・検出領域設定部とを備えて該入力部から入力された設定情報に基づいて該抽出・検出領域設定部で設定されるか、記憶部と抽出・検出領域設定部とを備えて該記憶部に記録された設定情報に基づいて該抽出・検出領域設定部で設定されるか、のいずれかにより決まる該抽出単位及び該検出領域を用い、
情報を格納する格納部と、
抽出部とを備え、
該抽出部は、入力されたテキストデ−タの現在の該検出領域以外の領域から全ての該抽出単位に相当するものを抽出して該格納部に格納し、現在の該検出領域において、該格納部に格納されていない該抽出単位に相当するものを特異表示文字列として抽出すると共に、
該抽出部の処理を該検出領域ごとに繰り返し、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項1ないし8のいずれかに記載のデ−タ表示装置。
In the configuration in which the data display device detects and displays a text difference,
The singular display character string extraction processing means,
Whether an extraction unit, which is a unit to be output as a difference between text data, and a detection area, which is a unit of an area to be compared in order to detect a difference between text data, are defined in advance or extracted from the input unit A detection area setting unit, which is set by the extraction / detection area setting unit based on setting information input from the input unit, or includes a storage unit and an extraction / detection area setting unit; Is set in the extraction / detection area setting unit based on the setting information recorded in the
A storage unit for storing information;
An extraction unit,
The extraction unit extracts all the units corresponding to the extraction unit from the region other than the current detection region of the input text data, stores the extracted data in the storage unit, and in the current detection region, Extracting one corresponding to the extraction unit not stored in the storage unit as a unique display character string,
Repeat the processing of the extraction unit for each detection region,
The singular format tag writing processing means,
9. The data display device according to claim 1, wherein a formatting tag according to the display mode is written.
前記デ−タ表示装置がキ−ワ−ドとなる語句を特異書式で表示する構成において、
前記特異表示文字列抽出処理手段が、
予め定義されているか、抽出単位設定部を備えて該抽出単位設定部で設定されるか、のいずれかにより決まる抽出の単位を用い、
特異表示する抽出表現を設定する抽出表現設定部と、
抽出領域の場所を設定する抽出領域設定部と、
情報を格納する格納部と、
抽出部とを備え、
該抽出部が、該抽出領域より抽出の単位に相当するものを抽出し、そのうち該抽出表現に該当するものを該格納部に格納し、前記テキストデ−タ中に現在の該抽出の単位に相当するものと同じものが、該格納部に格納されている場合は、それを特異表示文字列として抽出した後、
前記特異書式タグ書き込み処理手段が、
該表示態様に従った書式設定タグを書き込む
請求項1ないし8のいずれかに記載のデ−タ表示装置。
In the configuration in which the data display device displays a keyword as a keyword in a unique format,
The singular display character string extraction processing means,
Using an extraction unit that is either defined in advance or set by the extraction unit setting unit with an extraction unit setting unit,
An extraction expression setting unit for setting an extraction expression to be uniquely displayed;
An extraction area setting section for setting the location of the extraction area;
A storage unit for storing information;
An extraction unit,
The extraction unit extracts a part corresponding to the extraction unit from the extraction region, stores the part corresponding to the extracted expression in the storage unit, and sets the current extraction unit in the text data. If the same equivalent is stored in the storage unit, after extracting it as a unique display character string,
The singular format tag writing processing means,
9. The data display device according to claim 1, wherein a formatting tag according to the display mode is written.
前記抽出領域の場所として、前記テキストデ−タのタイトル部分とすることを特徴とする
請求項11に記載のデ−タ表示装置。
12. The data display device according to claim 11, wherein the location of the extraction area is a title portion of the text data.
少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示方法であって、
タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ、
タグ待避処理手段が、該抽出された書式設定タグをそのテキストデ−タ中の位置情報と共にタグ記憶手段に格納すると共に、該書式設定タグをテキストデ−タから除去するタグ待避処理を行うタグ待避ステップ、
特異表示文字列抽出処理手段が、タグ待避後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ、
タグ復帰処理手段が、該タグ記憶手段から書式設定タグ及び位置情報を読み出し、特異書式タグ書き込み処理手段から出力されたテキストデ−タに対し、位置情報に従って書式設定タグを書き込むタグ復帰処理を行うタグ復帰ステップ、
表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
を含むことを特徴とするデ−タ表示方法。
A data display method capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
A tag extraction step for extracting at least a part of the formatting tag from the text data;
Tag saving processing means stores the extracted formatting tag together with position information in the text data in the tag storage means, and performs tag saving processing for removing the formatting tag from the text data Retreat step,
Singular display character string extraction processing means, a singular display character string extraction step of extracting a character string to be displayed using a singular format from the text data after saving the tag,
A singular format tag writing processing means for writing a format tag corresponding to the singular format into the text data;
The tag restoration processing means reads the formatting tag and position information from the tag storage means, and performs tag restoration processing for writing the formatting tag according to the position information to the text data output from the singular formatting tag writing processing means. Tag return step,
A data display method, wherein the display processing means includes a display step of displaying text data in accordance with the formatting tag.
少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示方法であって、
タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ、
タグ序列置換処理手段が、該抽出された書式設定タグを所定の置換文字で置換すると共に、置換した書式設定タグを出現した順にタグ序列記憶手段に格納するタグ序列置換ステップ、
特異表示文字列抽出処理手段が、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ、
タグ序列逆置換処理手段が、タグ序列置換ステップで置換された文字を、該タグ序列記憶手段から順に読み出した書式設定タグに序列の順に再度置換するタグ序列逆置換ステップ、
表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
を含むことを特徴とするデ−タ表示方法。
A data display method capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
A tag extraction step for extracting at least a part of the formatting tag from the text data;
A tag sequence replacement processing unit that replaces the extracted formatting tag with a predetermined replacement character, and stores the replaced formatting tag in the tag sequence storage unit in the order of appearance,
Singular display character string extraction processing means extracts a singular display character string extraction step for extracting a character string to be displayed using a singular format from the text data after tag replacement.
A singular format tag writing processing means for writing a format tag corresponding to the singular format into the text data;
A tag order reverse replacement step in which the tag order reverse replacement processing means replaces the characters replaced in the tag order replacement step with the formatting tags read in order from the tag order storage means again in the order of the order;
A data display method, wherein the display processing means includes a display step of displaying text data in accordance with the formatting tag.
少なくともテキストの書式を設定する書式設定タグを含むテキストデ−タを表示する際に、テキストデ−タの一部の文字列を所定の特異書式で表示可能なデ−タ表示方法であって、
タグ抽出処理手段が、該テキストデ−タから該書式設定タグの少なくとも一部を抽出するタグ抽出ステップ、
タグ置換処理手段が、該抽出された書式設定タグを予め備えたタグ置換デ−タベ−スに基づいて所定の符号に置換するタグ置換ステップ、
特異表示文字列抽出処理手段が、タグ置換後のテキストデ−タから特異書式を用いた表示を行う文字列を抽出する特異表示文字列抽出ステップ、
特異書式タグ書き込み処理手段が、該特異書式に応じた書式設定タグをテキストデ−タ中に書き込む特異書式タグ書き込みステップ、
表示処理手段が、該書式設定タグに従ってテキストデ−タを表示する表示ステップ
を含むことを特徴とするデ−タ表示方法。
A data display method capable of displaying a partial character string of text data in a predetermined unique format when displaying text data including a formatting tag for setting at least text formatting,
A tag extraction step for extracting at least a part of the formatting tag from the text data;
A tag replacement step in which tag replacement processing means replaces the extracted formatting tag with a predetermined code based on a tag replacement database provided in advance;
Singular display character string extraction processing means extracts a singular display character string extraction step for extracting a character string to be displayed using a singular format from the text data after tag replacement.
A singular format tag writing processing means for writing a format tag corresponding to the singular format into the text data;
A data display method, wherein the display processing means includes a display step of displaying text data in accordance with the formatting tag.
前記デ−タ表示方法において、
表示状態設定手段により特異書式を用いた表示を行う特異表示状態と、通常の表示を行う通常表示状態を切り替え可能とする
請求項13ないし15のいずれかに記載のデ−タ表示方法。
In the data display method,
The data display method according to any one of claims 13 to 15, wherein the display state setting means can switch between a singular display state in which display using a singular format is performed and a normal display state in which normal display is performed.
前記テキストデ−タが少なくとも自然科学で用いられる記号又は式(以下、科学記号と呼ぶ)を含む構成において、
前記特異表示文字列抽出ステップが、
科学記号として用いる1文字以上の文字列と当該文字列が発現する発現条件とを予め格納した科学記号デ−タベ−スを用い、
科学記号抽出処理部により該科学記号デ−タベ−スを参照して該テキストデ−タから科学記号候補文字列を抽出する科学記号抽出処理過程、
文字列表示決定処理部により該発現条件と照合して該科学記号候補文字列の表示態様を決定する文字列表示決定処理過程
を含み、
前記特異書式タグ書き込みステップにおいて、該表示態様に従った書式設定タグを書き込む
請求項13ないし16のいずれかに記載のデ−タ表示方法。
In the configuration in which the text data includes at least symbols or formulas used in natural science (hereinafter referred to as scientific symbols),
The unique display character string extraction step includes:
Using a scientific symbol database in which one or more character strings used as scientific symbols and expression conditions for expressing the character strings are stored in advance.
A scientific symbol extraction process of extracting a scientific symbol candidate character string from the text data by referring to the scientific symbol database by a scientific symbol extraction processing unit;
A character string display determination processing unit that determines a display mode of the scientific symbol candidate character string by collating with the expression condition by a character string display determination processing unit,
The data display method according to any one of claims 13 to 16, wherein in the unique format tag writing step, a format tag according to the display mode is written.
JP2006060337A 2005-06-20 2006-03-06 Data display device and method Pending JP2007241482A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006060337A JP2007241482A (en) 2006-03-06 2006-03-06 Data display device and method
PCT/JP2006/312350 WO2006137412A1 (en) 2005-06-20 2006-06-20 Data display device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006060337A JP2007241482A (en) 2006-03-06 2006-03-06 Data display device and method

Publications (1)

Publication Number Publication Date
JP2007241482A true JP2007241482A (en) 2007-09-20

Family

ID=38586990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006060337A Pending JP2007241482A (en) 2005-06-20 2006-03-06 Data display device and method

Country Status (1)

Country Link
JP (1) JP2007241482A (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (en) * 1997-07-01 1999-04-23 Hitachi Ltd Method and device for retrieving and displaying structured document
JPH11134341A (en) * 1997-10-24 1999-05-21 Nec Corp System for displaying selection of descriptive information in hyper media description language
JP2001067348A (en) * 1999-06-21 2001-03-16 Fujitsu Ltd Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program
JP2002024211A (en) * 2000-06-30 2002-01-25 Hitachi Ltd Method and system for document management and storage medium having processing program stored thereon
JP2002063197A (en) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd Retrieving device, recording medium and program
JP2004151882A (en) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd Method of controlling information output, information output processing system, and program
JP2004280176A (en) * 2003-03-12 2004-10-07 National Institute Of Information & Communication Technology Keyword highlighting device and program
JP3682535B2 (en) * 2002-10-03 2005-08-10 独立行政法人情報通信研究機構 Document difference detection apparatus and program
JP2005228344A (en) * 2004-02-11 2005-08-25 Microsoft Corp Method and apparatus for visually emphasizing numerical data included in electronic document

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110384A (en) * 1997-07-01 1999-04-23 Hitachi Ltd Method and device for retrieving and displaying structured document
JPH11134341A (en) * 1997-10-24 1999-05-21 Nec Corp System for displaying selection of descriptive information in hyper media description language
JP2001067348A (en) * 1999-06-21 2001-03-16 Fujitsu Ltd Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program
JP2002063197A (en) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd Retrieving device, recording medium and program
JP2002024211A (en) * 2000-06-30 2002-01-25 Hitachi Ltd Method and system for document management and storage medium having processing program stored thereon
JP3682535B2 (en) * 2002-10-03 2005-08-10 独立行政法人情報通信研究機構 Document difference detection apparatus and program
JP2004151882A (en) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd Method of controlling information output, information output processing system, and program
JP2004280176A (en) * 2003-03-12 2004-10-07 National Institute Of Information & Communication Technology Keyword highlighting device and program
JP2005228344A (en) * 2004-02-11 2005-08-25 Microsoft Corp Method and apparatus for visually emphasizing numerical data included in electronic document

Similar Documents

Publication Publication Date Title
Boudchiche et al. AlKhalil Morpho Sys 2: A robust Arabic morpho-syntactic analyzer
Khalifa et al. A large scale corpus of Gulf Arabic
CN101887414B (en) Server for automatically scoring opinion conveyed by text message containing pictorial-symbols
Wang et al. Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing
US7231590B2 (en) Method and apparatus for visually emphasizing numerical data contained within an electronic document
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
US9043339B2 (en) Extracting terms from document data including text segment
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
Bow et al. Towards a general model of interlinear text
Thabet Stemming the Qur’an
Tehseen et al. Neural POS tagging of shahmukhi by using contextualized word representations
Camps et al. Noisy medieval data, from digitized manuscript to stylometric analysis: Evaluating Paul Meyer’s hagiographic hypothesis
Tufiş et al. DIAC+: A professional diacritics recovering system
Higuchi KH Coder 2. x reference manual
Alotaiby et al. Arabic vs. English: Comparative statistical study
JP4229457B2 (en) Data display device and data display method
Zamorano et al. Design and development of Iberia: a corpus of scientific Spanish
Saharia et al. LuitPad: a fully unicode compatible Assamese writing software
JP2007241482A (en) Data display device and method
WO2006137412A1 (en) Data display device and method
Seretan et al. Syntactic concordancing and multi-word expression detection
JP5187187B2 (en) Experience information search system
De Joode Digital Masorah: Toward an Index of Orthographic and Morphological Variation at the Lexical Level
JP4907927B2 (en) Data display device, data display method, and data display program
US20150309991A1 (en) Input support device, input support method, and input support program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121023