JP5891837B2 - Co-occurrence dictionary creation device - Google Patents

Co-occurrence dictionary creation device Download PDF

Info

Publication number
JP5891837B2
JP5891837B2 JP2012033981A JP2012033981A JP5891837B2 JP 5891837 B2 JP5891837 B2 JP 5891837B2 JP 2012033981 A JP2012033981 A JP 2012033981A JP 2012033981 A JP2012033981 A JP 2012033981A JP 5891837 B2 JP5891837 B2 JP 5891837B2
Authority
JP
Japan
Prior art keywords
occurrence
image
column
row
rows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012033981A
Other languages
Japanese (ja)
Other versions
JP2013171382A (en
Inventor
貢 三浦
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012033981A priority Critical patent/JP5891837B2/en
Publication of JP2013171382A publication Critical patent/JP2013171382A/en
Application granted granted Critical
Publication of JP5891837B2 publication Critical patent/JP5891837B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Description

本発明は自然言語解析分野に関し、特に共起辞書を作成する共起辞書作成装置に関する。   The present invention relates to the field of natural language analysis, and more particularly to a co-occurrence dictionary creation device that creates a co-occurrence dictionary.

共起辞書は、例えば機械翻訳における訳語選択や、かな漢字変換における漢字選択などの分野で用いられている(例えば特許文献1参照)。このような共起辞書は、人手で作成する方法と機械的に作成する方法とがある。共起辞書を機械的に作成する場合、例えば特許文献2に記載されているように、多数の文章について、その文章中に同時に出現している単語を形態素解析によって抽出し、抽出結果に基づいて共起マトリックス(共起行列)を更新する。   Co-occurrence dictionaries are used in fields such as translation word selection in machine translation and kanji selection in kana-kanji conversion (see, for example, Patent Document 1). Such a co-occurrence dictionary can be created manually or mechanically. When creating a co-occurrence dictionary mechanically, for example, as described in Patent Document 2, for a large number of sentences, words simultaneously appearing in the sentence are extracted by morphological analysis, and based on the extraction result Update the co-occurrence matrix.

特開2000−250914号公報JP 2000-250914 A 特開平7−36883号公報JP 7-36883 A 特開2002−082946号公報Japanese Patent Laid-Open No. 2002-082946 特開2009−075791号公報JP 2009-075791 A

ところで、通常の文章で用いられる単語の数は非常に多いため、一般に共起マトリックスのサイズは巨大なものとなる。特許文献2では、共起マトリックスを作成する際にどの単語を用いるかを共起登録用辞書に予め記憶しておき、共起登録用辞書に記載されている単語の共起関係のみを作成することによって、共起マトリックスの巨大化を抑えている。しかし、共起関係を作成する単語を制限することは、共起マトリックスから共起関係を調査できる単語の範囲を制限することになるため、共起辞書の精度が大幅に低下する。   By the way, since the number of words used in normal sentences is very large, the size of the co-occurrence matrix is generally huge. In Patent Literature 2, which word is used when creating the co-occurrence matrix is stored in advance in the dictionary for co-occurrence registration, and only the co-occurrence relationship of the words described in the dictionary for co-occurrence registration is created. As a result, the co-occurrence matrix is prevented from becoming huge. However, limiting the words that create the co-occurrence relationship limits the range of words that can be investigated for the co-occurrence relationship from the co-occurrence matrix, which greatly reduces the accuracy of the co-occurrence dictionary.

本発明の目的は、上述したような課題、すなわち、共起マトリックスの巨大化を抑えると共起辞書の精度が大幅に低下する、という課題を解決する共起辞書作成装置を提供することにある。   An object of the present invention is to provide a co-occurrence dictionary creation device that solves the problem as described above, that is, the problem that the accuracy of the co-occurrence dictionary is greatly reduced if the enlargement of the co-occurrence matrix is suppressed. .

本発明の一形態にかかる共起辞書作成装置は、
行と列との交点に前記行に割り当てられた単語と前記列に割り当てられた単語とが同一文章中に同時に出現する頻度を表す数値を記録した共起マトリックスを入力し、意味的に類似する単語どうしが前記行方向および前記列方向に隣接するように前記共起マトリックスの前記行および前記列を並べ替える並べ替え部と、
前記並べ替え後の前記共起マトリックスの前記行と前記列との交点に記録された数値を、前記行と前記列との交点に対応する画素の輝度値として有する画像を生成する画像生成部と、
前記画像に対して離散コサイン変換を行って生成したDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って前記画像の縮小画像を生成する画像縮小部と、
前記縮小画像の行および列に対応する行および列を有し、行と列との交点に前記縮小画像における対応する画素の輝度値が頻度として記録された縮小共起マトリックスと、前記縮小共起マトリックスの行および列に割り当てた識別番号と前記単語との対応を表す関係情報とから構成される共起辞書を生成する辞書作成部と
を有する、といった構成を採る。
A co-occurrence dictionary creation device according to one aspect of the present invention is provided.
Enter a co-occurrence matrix recording numerical values representing the frequency at which the word assigned to the row and the word assigned to the column appear simultaneously in the same sentence at the intersection of the row and the column, and are semantically similar A reordering unit that reorders the rows and columns of the co-occurrence matrix such that words are adjacent in the row direction and the column direction;
An image generation unit for generating an image having the numerical value recorded at the intersection of the row and the column of the co-occurrence matrix after the rearrangement as a luminance value of a pixel corresponding to the intersection of the row and the column; ,
An image reduction unit that removes high-frequency components from DCT coefficients generated by performing discrete cosine transform on the image, and performs inverse discrete cosine transform on the remaining DCT coefficients to generate a reduced image of the image;
A reduced co-occurrence matrix having rows and columns corresponding to the rows and columns of the reduced image, and a luminance value of a corresponding pixel in the reduced image recorded as a frequency at an intersection of the row and the column; and the reduced co-occurrence A configuration is adopted in which a dictionary creation unit is provided that generates a co-occurrence dictionary composed of identification numbers assigned to rows and columns of a matrix and relational information indicating correspondence between the words.

本発明は上述したような構成を有するため、共起辞書の精度をさほど低下させることなく、共起マトリックスの巨大化を抑えることができる。   Since the present invention has the above-described configuration, the co-occurrence matrix can be prevented from becoming enormous without significantly reducing the accuracy of the co-occurrence dictionary.

本発明の第1の実施形態のブロック図である。It is a block diagram of a 1st embodiment of the present invention. 本発明の第1の実施形態の処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process of the 1st Embodiment of this invention. 本発明の第1の実施形態における並べ替え部の動作説明図である。It is operation | movement explanatory drawing of the rearrangement part in the 1st Embodiment of this invention. 本発明の第1の実施形態における画像縮小部の動作説明図である。It is operation | movement explanatory drawing of the image reduction part in the 1st Embodiment of this invention. 本発明の第1の実施形態における辞書作成部の動作説明図である。It is operation | movement explanatory drawing of the dictionary creation part in the 1st Embodiment of this invention. 本発明の第1の実施形態における共起辞書を構成する関係情報の構成例を示す図である。It is a figure which shows the structural example of the relationship information which comprises the co-occurrence dictionary in the 1st Embodiment of this invention. 本発明の第2の実施形態のブロック図である。It is a block diagram of the 2nd Embodiment of this invention. 本発明の第2の実施形態における共起データの抽出例を示す図である。It is a figure which shows the example of extraction of co-occurrence data in the 2nd Embodiment of this invention. 本発明の第2の実施形態における共起マトリックスの例を示す図である。It is a figure which shows the example of the co-occurrence matrix in the 2nd Embodiment of this invention. 本発明の第2の実施形態におけるシソーラスによる並べ替えの例を示す図である。It is a figure which shows the example of the rearrangement by the thesaurus in the 2nd Embodiment of this invention. 本発明の第2の実施形態における強度(輝度)情報への変換例を示す図である。It is a figure which shows the example of conversion into the intensity | strength (luminance) information in the 2nd Embodiment of this invention. 本発明の第2の実施形態における離散コサイン化による量子化の例を示す図である。It is a figure which shows the example of the quantization by discrete cosineization in the 2nd Embodiment of this invention. 本発明の第2の実施形態における訳語選択の例を示す図である。It is a figure which shows the example of the translation selection in the 2nd Embodiment of this invention. 本発明の第2の実施形態の処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process of the 2nd Embodiment of this invention.

次に本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態にかかる共起辞書作成装置100は、共起マトリックス101を入力し、共起辞書102を生成して出力する機能を有する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.
[First embodiment]
Referring to FIG. 1, a co-occurrence dictionary creation device 100 according to the first embodiment of the present invention has a function of inputting a co-occurrence matrix 101, generating a co-occurrence dictionary 102, and outputting it.

共起マトリックス101は、行と列との交点に、行に割り当てられた単語と列に割り当てられた単語とが同一文章中に同時に出現する頻度を表す数値を記録したデータ構造である。共起マトリックス101は、例えば人手によって作成されるか、或いは後述する第2の実施形態と同様の方法で機械的に作成されて、共起辞書作成装置100に入力される。ここで、共起マトリックス101はN×Nの対称行列とする。すなわち、扱う単語の数をNとする。   The co-occurrence matrix 101 is a data structure in which a numerical value representing a frequency at which a word assigned to a row and a word assigned to a column simultaneously appear in the same sentence at the intersection of the row and the column is recorded. The co-occurrence matrix 101 is created manually, for example, or mechanically created by the same method as in the second embodiment described later, and is input to the co-occurrence dictionary creating apparatus 100. Here, the co-occurrence matrix 101 is an N × N symmetric matrix. That is, let N be the number of words handled.

共起辞書作成装置100は、例えば、専用のデータ通信回路から構成される通信インターフェース部、キーボードやマウスなどから構成される操作入力部、LCDなどから構成される画面表示部、メモリやハードディスクなどから構成される記憶部、およびマイクロプロセッサとその周辺回路などから構成されるプロセッサとを有するパーソナルコンピュータ等の情報処理装置で実現される。記憶部には、共起辞書作成プログラムが記憶されており、装置の起動時にこの共起辞書作成プログラムがプロセッサに読み取られ、そのプロセッサの動作を制御することにより、そのプロセッサ上に図1に示す並べ替え部111、画像生成部112、画像縮小部113、および辞書作成部114を実現する。   The co-occurrence dictionary creation device 100 includes, for example, a communication interface unit configured by a dedicated data communication circuit, an operation input unit configured by a keyboard and a mouse, a screen display unit configured by an LCD, a memory, a hard disk, and the like. The present invention is realized by an information processing apparatus such as a personal computer having a storage unit configured and a processor including a microprocessor and its peripheral circuits. The co-occurrence dictionary creation program is stored in the storage unit. When the apparatus is started up, the co-occurrence dictionary creation program is read by the processor and the operation of the processor is controlled, so that the processor shown in FIG. A rearrangement unit 111, an image generation unit 112, an image reduction unit 113, and a dictionary creation unit 114 are realized.

並べ替え部111は、共起マトリックス101を入力し、意味的に類似する単語どうしが行方向および列方向に隣接するように、共起マトリックス101の行および列を並べ替える機能を有する。   The rearrangement unit 111 has a function of inputting the co-occurrence matrix 101 and rearranging the rows and columns of the co-occurrence matrix 101 so that semantically similar words are adjacent to each other in the row direction and the column direction.

画像生成部112は、並べ替え後の共起マトリックス101を画像化する機能を有する。具体的には、共起マトリックス101の行と列との交点に記録された数値を、行と列との交点に対応する画素の輝度値として有する画像を生成する機能を有する。生成された画像の行および列の数は、共起マトリックス101と同じくN×Nである。   The image generation unit 112 has a function of imaging the rearranged co-occurrence matrix 101. Specifically, it has a function of generating an image having the numerical value recorded at the intersection of the row and column of the co-occurrence matrix 101 as the luminance value of the pixel corresponding to the intersection of the row and column. The number of rows and columns of the generated image is N × N as in the co-occurrence matrix 101.

画像縮小部113は、上記生成された画像に対して、離散コサイン変換を行って生成したDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って、上記生成された画像の縮小画像を生成する機能を有する。ここで、縮小画像の行および列の数をM(<N)とする。一般に、NとMとの間には、dを正の整数として、N=2d×Mの関係がある。   The image reduction unit 113 removes high frequency components from the DCT coefficients generated by performing discrete cosine transform on the generated image, performs inverse discrete cosine transform on the remaining DCT coefficients, A function of generating a reduced image; Here, the number of rows and columns of the reduced image is M (<N). In general, there is a relationship of N = 2d × M between N and M, where d is a positive integer.

辞書作成部114は、上記生成された縮小画像の行および列に対応する行および列を有し、行と列との交点に上記縮小画像における対応する画素の輝度値が頻度として記録された縮小共起マトリックス103と、この縮小共起マトリックス103の行および列に割り当てた識別番号と共起マトリックス101の行および列に割り当てられた単語との対応関係を示す関係情報104とから構成される共起辞書102を生成する機能を有する。生成された縮小共起マトリックス103の行および列の数は、上記縮小画像と同じくM×Mである。   The dictionary creation unit 114 has rows and columns corresponding to the rows and columns of the generated reduced image, and a reduction in which the luminance value of the corresponding pixel in the reduced image is recorded as a frequency at the intersection of the row and the column. A co-occurrence matrix 103 and co-occurrence information 104 indicating the correspondence between the identification numbers assigned to the rows and columns of the reduced co-occurrence matrix 103 and the words assigned to the rows and columns of the co-occurrence matrix 101 are shown. It has a function of generating the dictionary 102. The number of rows and columns of the generated reduced co-occurrence matrix 103 is M × M as in the reduced image.

次に、図1および図2を参照して、本実施形態にかかる共起辞書作成装置100の動作を説明する。   Next, the operation of the co-occurrence dictionary creation device 100 according to the present embodiment will be described with reference to FIG. 1 and FIG.

まず、並べ替え部111は、N×Nの共起マトリックス101を入力し、意味的に類似する単語どうしが行方向および列方向に隣接するように、共起マトリックス101の行および列を並べ替える(ステップS101)。例えば、共起マトリックス101の列に、単語「犬」「猫」「飼育」「世話」がある場合、「犬」と「猫」は互いに類似しているため、「犬」に対応する列と「猫」に対応する列とが隣接するように列の並べ替えを行う。同様に「飼育」と「世話」は互いに類似しているため、それらに対応する列どうしが隣接するように列の並べ替えを行う。そして、全ての列の並べ替えを終えると、並べ替え後の列の単語の並びと同じ順序に行の単語が並ぶように行の並べ替えを行う。なお、単語どうしの類似性は、単語を同義語や意味上の類似関係、包含関係などによって分類した辞書(シソーラス)を用いて決定することができる。   First, the rearrangement unit 111 inputs the N × N co-occurrence matrix 101 and rearranges the rows and columns of the co-occurrence matrix 101 so that semantically similar words are adjacent to each other in the row direction and the column direction. (Step S101). For example, when the words “dog”, “cat”, “bred”, “care” are in the column of the co-occurrence matrix 101, since “dog” and “cat” are similar to each other, the column corresponding to “dog” The columns are rearranged so that the column corresponding to “cat” is adjacent. Similarly, since “bred” and “care” are similar to each other, the columns are rearranged so that the columns corresponding to them are adjacent to each other. When all the columns are rearranged, the rows are rearranged so that the words in the rows are arranged in the same order as the words in the rearranged columns. Note that the similarity between words can be determined using a dictionary (thesaurus) in which words are classified according to synonyms, semantic similarity relationships, inclusion relationships, and the like.

以上のような並べ替えを行うことによって、例えば図3に示すように、共起マトリックス上において、「犬」と「飼育」との頻度(=5)、「犬」と「世話」との頻度(=7)、「猫」と「飼育」との頻度(=4)、「猫」と「世話」との頻度(=8)などのように、関連性のある頻度が集まって塊を形成するようになる。   By performing the above sort, for example, as shown in FIG. 3, on the co-occurrence matrix, the frequency of “dog” and “bred” (= 5), the frequency of “dog” and “care” (= 7), frequency of “cat” and “bred” (= 4), frequency of “cat” and “care” (= 8), etc. To come.

次に画像生成部112は、並べ替え後の共起マトリックス101の行と列との交点に記録された頻度を示す数値を、行と列との交点に対応する画素の輝度値として有する画像、すなわちN×Nの画素を有する二次元画像を生成する(ステップS102)。   Next, the image generation unit 112 has an image having a numerical value indicating the frequency recorded at the intersection of the row and column of the rearranged co-occurrence matrix 101 as the luminance value of the pixel corresponding to the intersection of the row and column, That is, a two-dimensional image having N × N pixels is generated (step S102).

次に画像縮小部113は、画像生成部112が生成した画像に対して、離散コサイン変換を行い、生成されたDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って、縮小画像を生成する(ステップS103)。より具体的には、画像縮小部113は、以下のような処理を行う。   Next, the image reduction unit 113 performs discrete cosine transform on the image generated by the image generation unit 112, removes high-frequency components from the generated DCT coefficients, and performs inverse discrete cosine transform on the remaining DCT coefficients, A reduced image is generated (step S103). More specifically, the image reduction unit 113 performs the following processing.

画像縮小部113は、先ず画像をブロックに分割する。1ブロックのサイズは任意であるが、ここでは8×8画素のブロックに分割する。次に画像縮小部113は、各ブロック毎に、離散コサイン変換を行ってDCT係数を生成する。8×8画素の1ブロックに対して離散コサイン変換を行うと、図4に示すような8×8個のDCT係数が生成される。DCT係数A00は直流成分、A00以外のDCT係数は交流成分であり、右下に行くほど高次の交流成分となる。次に画像縮小部113は、生成されたDCT係数から高周波成分を取り除く。幾つのDCT係数を取り除くかは、縮小率に従う。例えば画像サイズを縦横とも半分にする場合、図4に破線で囲んだ低周波数側の4×4個のDCT係数以外のDCT係数を全て取り除く。次に画像縮小部113は、残ったDCT係数に逆離散コサイン変換を行って縮小画像を生成する。例えば、図4に破線で囲んだ低周波数側の4×4個のDCT係数に対して逆離散コサイン変換を行うと、4×4画素の画像が生成される。 The image reduction unit 113 first divides the image into blocks. The size of one block is arbitrary, but here, it is divided into blocks of 8 × 8 pixels. Next, the image reducing unit 113 performs discrete cosine transform for each block to generate DCT coefficients. When discrete cosine transform is performed on one block of 8 × 8 pixels, 8 × 8 DCT coefficients as shown in FIG. 4 are generated. DCT coefficient A 00 is a DC component, the DCT coefficients other than the A 00 is an alternating current component, a high order of the AC component toward the lower right. Next, the image reducing unit 113 removes high frequency components from the generated DCT coefficients. How many DCT coefficients are removed depends on the reduction ratio. For example, when the image size is halved both vertically and horizontally, all DCT coefficients other than the 4 × 4 DCT coefficients on the low frequency side surrounded by a broken line in FIG. 4 are removed. Next, the image reduction unit 113 performs inverse discrete cosine transform on the remaining DCT coefficients to generate a reduced image. For example, when inverse discrete cosine transform is performed on 4 × 4 DCT coefficients on the low frequency side surrounded by a broken line in FIG. 4, an image of 4 × 4 pixels is generated.

次に辞書作成部114は、画像縮小部113によって生成された縮小画像から、縮小共起マトリックス103と関係情報104とを生成する(ステップS104)。縮小共起マトリックス103の生成では、縮小画像の行および列に対応する行および列を有し、行と列との交点に上記縮小画像における対応する画素の輝度値が頻度として記録されたマトリックスを生成する。例えば、縦横のサイズが半分に縮小された縮小画像からは、(N/2)×(N/2)の共起マトリックスを生成する。そして、生成した縮小共起マトリックス103の行および列に対して識別番号を割り当てる。行と列の数はN/2なので、割り当てる識別番号の総数はN/2である。   Next, the dictionary creation unit 114 creates the reduced co-occurrence matrix 103 and the relationship information 104 from the reduced image generated by the image reducing unit 113 (step S104). In the generation of the reduced co-occurrence matrix 103, a matrix having rows and columns corresponding to the rows and columns of the reduced image, and the luminance value of the corresponding pixel in the reduced image recorded as a frequency at the intersection of the row and the column is used. Generate. For example, a co-occurrence matrix of (N / 2) × (N / 2) is generated from a reduced image whose vertical and horizontal sizes are reduced by half. Then, an identification number is assigned to the row and column of the generated reduced co-occurrence matrix 103. Since the number of rows and columns is N / 2, the total number of identification numbers to be assigned is N / 2.

関係情報104の生成では、縮小共起マトリックス103の行および列に割り当てた識別番号と元の共起マトリックス101の行および列に割り当てられた単語との対応関係を洗い出し、単語と識別番号とを対応付ける。例えば、図5に示すように、並べ替え後の共起マトリックス101における「犬」に対応する列と「猫」に対応する列との2つの列が、画像縮小プロセスを経て生成された縮小共起マトリックス103ではID101を付与した一つの列に縮小されていれば、例えば図6に示すように、「犬」と「ID101」との組み合わせ、および「猫」と「ID101」との組み合わせを関係情報104に記録する。また、並べ替え後の共起マトリックス101における「飼育」に対応する行と「世話」に対応する行との2つの行が、画像縮小プロセスを経て生成された縮小共起マトリックス103ではID102を付与した一つの行に縮小されていれば、例えば図6に示すように、「飼育」と「ID102」との組み合わせ、および「世話」と「ID102」との組み合わせを関係情報104に記録する。   In the generation of the relationship information 104, the correspondence between the identification numbers assigned to the rows and columns of the reduced co-occurrence matrix 103 and the words assigned to the rows and columns of the original co-occurrence matrix 101 is identified, and the words and the identification numbers are obtained. Associate. For example, as shown in FIG. 5, two columns, a column corresponding to “dog” and a column corresponding to “cat”, in the co-occurrence matrix 101 after the rearrangement are generated through the image reduction process. If the occurrence matrix 103 is reduced to a single column with ID 101, for example, as shown in FIG. 6, the combination of “dog” and “ID 101” and the combination of “cat” and “ID 101” are related. Record in information 104. In the reduced co-occurrence matrix 103 generated through the image reduction process, two rows, a row corresponding to “bred” and a row corresponding to “care” in the co-occurrence matrix 101 after rearrangement, are assigned ID 102. If it is reduced to one line, the combination of “bred” and “ID102” and the combination of “care” and “ID102” are recorded in the relationship information 104 as shown in FIG.

図6に示す関係情報104は、単語と識別番号との組み合わせのみで構成されているが、その他の情報が含まれていてもよい。例えば、関係情報104には、各単語の品詞、意味、訳語などが含まれていてもよい。   Although the relationship information 104 shown in FIG. 6 is composed of only a combination of a word and an identification number, other information may be included. For example, the relationship information 104 may include the part of speech, meaning, translation, etc. of each word.

上述のようにして生成された共起辞書102を用いて、或る単語Aと別の単語Bとの共起頻度を調べる場合、単語A、Bに対応する識別番号を関係情報104から取得し、単語Aに対応する識別番号を持つ行(あるいは列)と単語Bに対応する識別番号を持つ列(あるいは行)との交点の頻度を縮小共起マトリックス103から取得する。   When the co-occurrence frequency of a certain word A and another word B is examined using the co-occurrence dictionary 102 generated as described above, identification numbers corresponding to the words A and B are acquired from the relationship information 104. The frequency of the intersection of the row (or column) having the identification number corresponding to the word A and the column (or row) having the identification number corresponding to the word B is acquired from the reduced co-occurrence matrix 103.

このように本実施形態によれば、共起辞書の精度をさほど低下させることなく、共起マトリックスの巨大化を抑えることができる。その理由は、共起関係を作成する単語を制限していないためである。また、別の理由は、原画像の画質をさほど劣化させずに画像を縮小することができるDCT処理による画像縮小技術を用いて、複数の頻度を一つの頻度に圧縮しているため、或る単語と或る単語の共起の頻度の情報を維持したまま(関連性を維持したまま)、複数の頻度を一つの頻度に圧縮することができるためである。   As described above, according to the present embodiment, the co-occurrence matrix can be prevented from becoming enormous without significantly reducing the accuracy of the co-occurrence dictionary. The reason is that the words for creating the co-occurrence relationship are not limited. Another reason is that a plurality of frequencies are compressed to one frequency using an image reduction technique based on DCT processing that can reduce an image without significantly degrading the image quality of the original image. This is because it is possible to compress a plurality of frequencies into one frequency while maintaining information on the frequency of co-occurrence of a word and a certain word (while maintaining relevance).

[第2の実施形態]
次に本発明の第2の実施形態について詳細に説明する。本実施形態は、機械翻訳における訳語選択装置に本発明を適用した実施の形態である。
[Second Embodiment]
Next, a second embodiment of the present invention will be described in detail. This embodiment is an embodiment in which the present invention is applied to a translation word selection device in machine translation.

従来より、機械翻訳に関する分野において、訳語を選択する装置が利用されてきた。訳語を選択する装置は各種あるが、一般的に利用されるものは、以下の通りである。
(1)単語ベクトルを利用するもの(例えば特許文献3)。
(2)語と語の共起条件を利用するもの(例えば特許文献1)。
(3)類似度などを利用するもの(例えば特許文献4)。
Conventionally, devices for selecting translated words have been used in the field of machine translation. There are various devices for selecting a translated word, but the devices generally used are as follows.
(1) Those using word vectors (for example, Patent Document 3).
(2) One that uses a word-word co-occurrence condition (for example, Patent Document 1).
(3) Those using similarity or the like (for example, Patent Document 4).

また、情報圧縮の手法として、離散コサイン変換やフーリエ変換などが利用されている。一般に画像の不可逆圧縮方法として、離散コサイン変換が従来より利用されている。離散コサイン変換には標準的な方法が幾種か知られているが、最も一般的な方法は、type-II DCTと呼ばれるものであり、離散コサイン変換と呼んだ場合これを指すことが多い。同様に、DCT-IIの逆変換であるtype-III DCTは逆離散コサイン変換と呼ばれる。いづれにせよ、本実施形態においては、従来技法である離散コサイン変換を利用するが、その方式は特に特定しない。また、類似の離散フーリエ変換を利用しても本実施形態は成立する。ただし、低周波数成分が多いデータにおいては、離散コサインを利用した方が圧縮効果が高いため、本実施形態においては離散コサインを利用している。   Further, discrete cosine transform, Fourier transform, or the like is used as an information compression method. In general, discrete cosine transform has been used as an irreversible compression method for images. Several standard methods are known for the discrete cosine transform, but the most common method is called type-II DCT, which is often referred to as discrete cosine transform. Similarly, type-III DCT, which is the inverse transform of DCT-II, is called inverse discrete cosine transform. In any case, the present embodiment uses the discrete cosine transform which is a conventional technique, but the method is not particularly specified. Also, the present embodiment can be realized by using a similar discrete Fourier transform. However, for data with many low frequency components, since the compression effect is higher when the discrete cosine is used, the discrete cosine is used in this embodiment.

本実施形態が解決しようとする課題は、共起データが膨大になる点と、共起データを間引くなどの圧縮方式では共起データの関係性が失われて精度が落ちる点である。   The problem to be solved by the present embodiment is that the co-occurrence data becomes enormous and that the compression method such as thinning out the co-occurrence data loses the relationship of the co-occurrence data and decreases accuracy.

本実施形態の目的は、利用者に対し、共起データの管理を平易に行う機能と訳語の選択を的確に実施する機能と、これらの機能を有する訳語選択装置を提供することである。   An object of the present embodiment is to provide a user with a function for easily managing co-occurrence data, a function for accurately selecting a translated word, and a translated word selecting apparatus having these functions.

以下、本実施形態の構成および動作を図面を参照して詳細に説明する。   Hereinafter, the configuration and operation of the present embodiment will be described in detail with reference to the drawings.

本実施形態の訳語選択装置は、図7に示されるような構成をとり、データ読み取り装置1と、共起情報作成装置2と、シソーラス装置3と、共起マトリックス管理装置4と、離散コサイン変換装置5と、フィルタ6と、逆変換装置7と、共起情報管理装置8と、文書入力装置9と、辞書10と、訳語選択装置11とを備えている装置である。ここで、共起マトリックス管理装置4が図1の並べ替え部111と画像生成部112に相当し、離散コサイン変換装置5とフィルタ6と逆変換装置7が図1の画像縮小部113に相当し、共起情報管理装置8が図1の辞書作成部114に相当する。   The translation word selection device of the present embodiment has a configuration as shown in FIG. 7, and includes a data reading device 1, a co-occurrence information creation device 2, a thesaurus device 3, a co-occurrence matrix management device 4, and a discrete cosine transform. The apparatus 5 includes a device 5, a filter 6, an inverse conversion device 7, a co-occurrence information management device 8, a document input device 9, a dictionary 10, and a translation selection device 11. Here, the co-occurrence matrix management device 4 corresponds to the rearrangement unit 111 and the image generation unit 112 in FIG. 1, and the discrete cosine transformation device 5, the filter 6, and the inverse transformation device 7 correspond to the image reduction unit 113 in FIG. The co-occurrence information management device 8 corresponds to the dictionary creation unit 114 in FIG.

データ読み取り装置1は、文書を読み取る装置である。従来より一般的に利用されているものである。読み取り対象は、メモリや外部記憶装置のファイルデータやWeb上にあるHTMLデータでもよく、一般的な文書データであれば、装置の形態や配置を特定するものではない。   The data reading device 1 is a device that reads a document. It has been generally used conventionally. The reading target may be file data in a memory or an external storage device or HTML data on the Web, and if it is general document data, it does not specify the form or arrangement of the device.

共起情報作成装置2は、データ読み取り装置1が読み取った文書ドキュメントから、共起情報を作成する装置である。共起情報とは、特定の単語が他の特定の語と同時に一文中に出現する頻度や確率を統計的に処理したものである。例えば、手術と病院は、共起しやすいが、手術とマントルなどは共起し難いなどのデータを意味する。本実施形態では、データ読取装置1で、読み取った文を形態素単位に分割し、共起マトリックスに蓄積する機能を有する装置である。本動作を行う装置は、従来も用いられてきたものである。図8に共起データの抽出例を示す。また、図9に共起マトリックスの作成例を示す。新たに(盲腸,手術)の共起データが得られた場合、マトリックス中の頻度データが1つ加算される例である。   The co-occurrence information creation device 2 is a device that creates co-occurrence information from a document document read by the data reading device 1. The co-occurrence information is obtained by statistically processing the frequency and probability that a specific word appears in a sentence simultaneously with another specific word. For example, it means data that surgery and hospital are likely to co-occur but surgery and mantle are difficult to co-occur. In the present embodiment, the data reading device 1 is a device having a function of dividing a read sentence into morpheme units and storing them in a co-occurrence matrix. An apparatus for performing this operation has been used conventionally. FIG. 8 shows an example of co-occurrence data extraction. FIG. 9 shows an example of creating a co-occurrence matrix. This is an example in which one piece of frequency data in the matrix is added when new (caecum, surgery) co-occurrence data is obtained.

シソーラス装置3は、単語と単語の関係を階層的に表現するものである。本装置も従来より利用されてきたものである。本装置を利用して、共起マトリックスのデータを関連度の高いものを近くに並べるように構成する。この並べ替えの目的は、データの圧縮率を向上させることを目的としている。隣接する画素間に強い相関を持たせることにより、比較的低い周波数成分に電力が集中するようにし、低い周波数のコサイン成分の絶対値が大きく、高い周波数成分の絶対値が小さくなり、エントロピー符号化により大幅に情報量を圧縮させるために利用しているものである。本装置がなくても本実施形態の装置は動作するが、圧縮率を高めるために、本実施形態の要素としてる。実際には、シソーラスではなく、他の手法により、隣接する画素間に相関が持たせられる機能を実装できれば、本実施形態と同様の効果を得ることが可能である。図10にシソーラスによる並び替えの例を示す。   The thesaurus device 3 expresses the relationship between words in a hierarchical manner. This apparatus has also been used conventionally. By using this apparatus, the data of the co-occurrence matrix is arranged so that highly relevant ones are arranged nearby. The purpose of this rearrangement is to improve the data compression rate. By having strong correlation between adjacent pixels, power is concentrated on relatively low frequency components, the absolute value of the low frequency cosine component is large, the absolute value of the high frequency component is small, and entropy coding is performed. Is used to greatly reduce the amount of information. Although the apparatus of this embodiment operates even without this apparatus, it is used as an element of this embodiment in order to increase the compression rate. Actually, the same effect as that of the present embodiment can be obtained if a function that allows correlation between adjacent pixels can be implemented by other methods than the thesaurus. FIG. 10 shows an example of rearrangement by the thesaurus.

共起マトリックス管理装置4は、共起マトリックスのデータを管理する装置であり、本装置は、従来の技術にはないものであり、本実施形態の中核をなす装置である。本装置は、共起情報作成装置2で得られた共起マトリックスのデータをシソーラス3を利用して、類似する単語同士の並べ替えを行うとともに、頻度情報を輝度情報として処理する。共起マトリックスのデータは、2次元の画像と類似のデータとして、離散コサイン変換装置5を利用し、離散コサイン変換を行う。また、フィルタ装置6を利用して、画像データの量子化を実施し、データを圧縮する。さらに、逆変換装置7を利用して、量子化された共起マトリックスのデータを共起情報管理装置8に送出する。図11に強度(輝度)情報への変換の例を示す。また図12に離散コサイン変換を使った量子化の例を示す。   The co-occurrence matrix management device 4 is a device for managing the data of the co-occurrence matrix, and this device is not present in the prior art, and is a device that forms the core of this embodiment. This apparatus uses the thesaurus 3 to rearrange similar words using the co-occurrence matrix data obtained by the co-occurrence information creation apparatus 2 and processes frequency information as luminance information. The co-occurrence matrix data is subjected to discrete cosine transform as data similar to a two-dimensional image using the discrete cosine transform device 5. Also, the filter device 6 is used to quantize the image data and compress the data. Further, the inverse transformation device 7 is used to send the quantized co-occurrence matrix data to the co-occurrence information management device 8. FIG. 11 shows an example of conversion to intensity (luminance) information. FIG. 12 shows an example of quantization using discrete cosine transform.

離散コサイン変換装置5は、離散コサイン変換を実施する装置であり、音声や画像の圧縮で従来より利用されてきた装置であって、本実施形態上の必須構成要素であるが、それ自体は新規性は有しない装置である。一般に画像圧縮などで従来から利用されている装置として類似の装置に離散フーリエ変換装置などもある。本実施形態においては、離散フーリエ変換装置を利用しても同様の効果を得ることが可能である。ただし、低周波数成分が多いデータにおいては、離散コサインを利用した方が圧縮効果が高いため、本実施形態においては離散コサインを利用している。   The discrete cosine transform device 5 is a device that performs discrete cosine transform, and is a device that has been conventionally used in audio and image compression, and is an indispensable component in this embodiment, but is itself new. It is a device that does not have sex. In general, there are a discrete Fourier transform apparatus and the like as a similar apparatus conventionally used for image compression. In the present embodiment, the same effect can be obtained even if a discrete Fourier transform apparatus is used. However, for data with many low frequency components, since the compression effect is higher when the discrete cosine is used, the discrete cosine is used in this embodiment.

フィルタ6は、離散コサイン変換を実施したデータに対し、周波数成分や変化点などをフィルタし、元データを量子化するため利用される装置であり、音声や画像の圧縮で従来より利用されてきた装置であって、本実施形態上の必須構成要素であるが、それ自体は新規性は有しない装置である。   The filter 6 is a device used to quantize the original data by filtering the frequency components and change points of the data subjected to the discrete cosine transform, and has been used conventionally for compressing audio and images. Although it is an apparatus and is an essential component in this embodiment, it is an apparatus that does not have novelty in itself.

逆変換装置7は、離散コサイン変換を逆向きに実施する装置であり、音声や画像の圧縮で従来より利用されてきた装置であって、本実施形態上の必須構成要素であるが、新規性は有しない装置である。   The inverse transform device 7 is a device that performs discrete cosine transform in the reverse direction, and is a device that has been conventionally used in the compression of audio and images, and is an essential component in the present embodiment. Does not have a device.

共起情報管理装置8は、共起マトリックス管理装置4から送出された共起マトリックスのデータを管理する装置である。本装置は、訳語選択装置11と連携し、訳語を選択する機能を実現する。また、量子化された共起マトリックスのデータを辞書11に関係つける機能を有する装置である。本装置は、従来はなかった装置であり、本実施形態により、新規に創出された装置である。   The co-occurrence information management device 8 is a device that manages co-occurrence matrix data transmitted from the co-occurrence matrix management device 4. This device realizes a function of selecting a translated word in cooperation with the translated word selecting device 11. In addition, the apparatus has a function of relating the quantized co-occurrence matrix data to the dictionary 11. This device is a device that has not been heretofore, and is a device newly created by this embodiment.

文書入力装置9は、翻訳の対象となる文が入力される装置であり、いわゆるテキストデータの入力装置であって、本実施形態上の必須構成要素であるが、従来から利用されている装置である。   The document input device 9 is a device for inputting a sentence to be translated, and is a so-called text data input device, which is an essential component in the present embodiment, but is a conventionally used device. is there.

辞書10は、訳語選択装置11が利用する装置であり、言語と訳語のデータを蓄積している装置であって、本実施形態上の必須構成要素であるが、従来から利用されている装置である。   The dictionary 10 is a device used by the translation selection device 11 and stores data of language and translation, and is an essential component in the present embodiment. is there.

訳語選択装置11は、文書入力装置9に入力された文章を辞書10を利用して、単語単位に訳語を付与し、かつ共起情報管理装置8を利用して、圧縮された共起マトリックスのデータを参照することにより適宜訳語を選択する機能を有する装置である。図13に訳語選択の例を示す。   The translation selection device 11 uses the dictionary 10 for the sentence input to the document input device 9 to assign a translation word by word, and uses the co-occurrence information management device 8 for the compressed co-occurrence matrix. It is an apparatus having a function of selecting a translation as appropriate by referring to data. FIG. 13 shows an example of translation selection.

図14のフローチャートを参照すると、本実施形態の動作は以下のようになる。
[ステップS1] データを読み取る。
[ステップS2] 単語単位に形態素解析を行い共起情報を抽出する。
[ステップS3] 共起マトリックス上に単語がすでに登録されているかを判定する。
[ステップS4] ないならば、新規に登録する。
[ステップS5] あるならば、頻度情報を1つ上げる。
[ステップS6] すべての単語の処理が終わったかを判定する。YESならステップS7へ、NOならステップS2へ進む。
[ステップS7] シソーラスを参照し、ソーティングを実施する。
[ステップS8] 全単語のソーティングが終了したか否かを判定する。YESならステップS10へ、NOならステップS7へ進む。
[ステップS9] 離散コサイン変換を実施する。
[ステップS10] フィルタリングを実施する。
[ステップS11] 逆変換を実施する。
[ステップS12] 量子化されたIDを元の単語と結びつける。すなわち、もとの単語のあった領域が圧縮された(量子化された)部分にIDをつける。
[ステップS13] 辞書の単語にIDを付与する。例えば、猫と犬が隣接するところが量子化されてID10がつくとすると、猫と犬の辞書にID=10を付与する。
Referring to the flowchart of FIG. 14, the operation of this embodiment is as follows.
[Step S1] Data is read.
[Step S2] Morphological analysis is performed for each word to extract co-occurrence information.
[Step S3] It is determined whether a word has already been registered on the co-occurrence matrix.
[Step S4] If it does not exist, it is newly registered.
[Step S5] If there is, the frequency information is increased by one.
[Step S6] It is determined whether all the words have been processed. If YES, the process proceeds to step S7, and if NO, the process proceeds to step S2.
[Step S7] Referring to the thesaurus, sorting is performed.
[Step S8] It is determined whether or not all words have been sorted. If YES, the process proceeds to step S10, and if NO, the process proceeds to step S7.
[Step S9] Discrete cosine transform is performed.
[Step S10] Filtering is performed.
[Step S11] Inverse transformation is performed.
[Step S12] The quantized ID is linked to the original word. That is, an ID is attached to a compressed (quantized) portion of the area where the original word was.
[Step S13] An ID is assigned to a word in the dictionary. For example, if an area where a cat and a dog are adjacent is quantized and ID10 is added, ID = 10 is assigned to the cat-dog dictionary.

本実施形態によれば、以下のような効果が得られる。   According to this embodiment, the following effects can be obtained.

第一の効果は、共起データの管理を平易に行う機能を実現できることである。その理由は、離散コサイン変換により共起データをそれらの相互の関係を極力保持したまま圧縮して管理することが可能になったためである。   The first effect is that a function for easily managing co-occurrence data can be realized. The reason is that co-occurrence data can be compressed and managed while maintaining the mutual relationship as much as possible by discrete cosine transform.

第二の効果は、訳語の選択を的確に実施する機能を実現できることである。その理由は、関係性を極力保持した共起データを利用できるためである。   The second effect is that it is possible to realize a function for accurately performing translation selection. The reason is that co-occurrence data that maintains the relationship as much as possible can be used.

なお、本システムの実装上の形態として、各構成要素を実現する手段として、電子回路やコンピュータなどが想定される。上記の1〜11のモジュールを別々の部品としても、全部を1つの装置として作成することも可能である。1〜11のモジュールは、PCなどに代表されるひとつの装置内部に格納することも可能である。   Note that, as a form of implementation of this system, an electronic circuit, a computer, or the like is assumed as a means for realizing each component. The above modules 1 to 11 can be formed as separate parts or all as a single device. The modules 1 to 11 can also be stored in one device typified by a PC.

また、それぞれをソフトウエアと、コンピュータという構成で実施することも可能である。また、それぞれの機能をネットワークを介した形での構成も可能である。また、それぞれの機能あるいは装置全体を複数台用意し、性能を向上する構成をとることも可能である。さらに、本装置を他の装置に組み合わせたり、ソフトウエアの形で実施する場合は、他のソフトウエアから呼ばれる形での構成も可能である。   Moreover, it is also possible to implement each with the structure of a software and a computer. Further, it is possible to configure each function via a network. In addition, it is possible to prepare a plurality of each function or the whole apparatus to improve the performance. Further, when the present apparatus is combined with other apparatuses or implemented in the form of software, a configuration called by other software is also possible.

本実施形態は、共起データの管理を平易に行う機能、訳語の選択を的確に実施する機能を有することを特徴に持つ訳語選択装置である。訳語の選択に関しては、機械翻訳装置への利用が第一義として想定されるが、漢字かな変換システム、検索装置でのランキング機構、テキストマイニングにおける計算時間の圧縮などへの利用も想定される。   The present embodiment is a translated word selecting device characterized by having a function of easily managing co-occurrence data and a function of accurately selecting a translated word. Regarding the selection of the translation word, the use to the machine translation device is assumed as the primary meaning, but the use to the kanji conversion system, the ranking mechanism in the search device, and the calculation time reduction in the text mining is also assumed.

100…共起辞書作成装置
101…共起マトリックス
102…共起辞書
103…縮小共起マトリックス
104…関係情報
111…並べ替え部
112…画像生成部
113…画像縮小部
114…辞書作成部
DESCRIPTION OF SYMBOLS 100 ... Co-occurrence dictionary creation apparatus 101 ... Co-occurrence matrix 102 ... Co-occurrence dictionary 103 ... Reduction co-occurrence matrix 104 ... Relation information 111 ... Rearrangement part 112 ... Image generation part 113 ... Image reduction part 114 ... Dictionary preparation part

Claims (5)

行と列との交点に前記行に割り当てられた単語と前記列に割り当てられた単語とが同一文章中に同時に出現する頻度を表す数値を記録した共起マトリックスを入力し、意味的に類似する単語どうしが前記行方向および前記列方向に隣接するように前記共起マトリックスの前記行および前記列を並べ替える並べ替え部と、
前記並べ替え後の前記共起マトリックスの前記行と前記列との交点に記録された数値を、前記行と前記列との交点に対応する画素の輝度値として有する画像を生成する画像生成部と、
前記画像に対して離散コサイン変換を行って生成したDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って前記画像の縦横のサイズを1/2d(dは正の整数)に縮小した縮小画像を生成する画像縮小部と、
前記縮小画像の行および列に対応する行および列を有し、行と列との交点に前記縮小画像における対応する画素の輝度値が頻度として記録された縮小共起マトリックスと、前記縮小共起マトリックスの行および列に割り当てた識別番号と前記単語との対応を表す関係情報とから構成される共起辞書を生成する辞書作成部と
を有する共起辞書作成装置。
Enter a co-occurrence matrix recording numerical values representing the frequency at which the word assigned to the row and the word assigned to the column appear simultaneously in the same sentence at the intersection of the row and the column, and are semantically similar A reordering unit that reorders the rows and columns of the co-occurrence matrix such that words are adjacent in the row direction and the column direction;
An image generation unit for generating an image having the numerical value recorded at the intersection of the row and the column of the co-occurrence matrix after the rearrangement as a luminance value of a pixel corresponding to the intersection of the row and the column; ,
High-frequency components are removed from DCT coefficients generated by performing discrete cosine transform on the image, and inverse discrete cosine transform is performed on the remaining DCT coefficients to reduce the vertical and horizontal size of the image to 1 / 2d (d is a positive integer). an image reducing unit that generates a reduced image obtained by reducing the,
A reduced co-occurrence matrix having rows and columns corresponding to the rows and columns of the reduced image, and a luminance value of a corresponding pixel in the reduced image recorded as a frequency at an intersection of the row and the column; and the reduced co-occurrence A co-occurrence dictionary creation device comprising: a dictionary creation unit that creates a co-occurrence dictionary composed of identification numbers assigned to rows and columns of a matrix and relation information representing correspondence between the words.
前記並べ替え部は、単語を同義語や意味上の類似関係、包含関係によって分類したシソーラス辞書を参照して並べ替えを行う
請求項1に記載の共起辞書作成装置。
The co-occurrence dictionary creation device according to claim 1, wherein the rearrangement unit performs rearrangement with reference to a thesaurus dictionary in which words are classified according to synonyms, semantic similarity relationships, and inclusion relationships.
請求項1または2に記載の共起辞書作成装置によって生成された前記共起辞書を用いて機械翻訳における訳語の選択を行う訳語選択装置。 A translation selection apparatus for selecting a translation word in machine translation using the co-occurrence dictionary generated by the co-occurrence dictionary creation apparatus according to claim 1 . 並べ替え部と画像生成部と画像縮小部と辞書作成部とを有する共起辞書作成装置が実行する共起辞書作成方法であって、
前記並べ替え部が、行と列との交点に前記行に割り当てられた単語と前記列に割り当てられた単語とが同一文章中に同時に出現する頻度を表す数値を記録した共起マトリックスを入力し、意味的に類似する単語どうしが前記行方向および前記列方向に隣接するように前記共起マトリックスの前記行および前記列を並べ替え、
前記画像生成部が、前記並べ替え後の前記共起マトリックスの前記行と前記列との交点に記録された数値を、前記行と前記列との交点に対応する画素の輝度値として有する画像を生成し、
前記画像縮小部が、前記画像に対して離散コサイン変換を行って生成したDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って前記画像の縦横のサイズを1/2d(dは正の整数)に縮小した縮小画像を生成し、
前記辞書作成部が、前記縮小画像の行および列に対応する行および列を有し、行と列との交点に前記縮小画像における対応する画素の輝度値が頻度として記録された縮小共起マトリックスと、前記縮小共起マトリックスの行および列に割り当てた識別番号と前記単語との対応を表す関係情報とから構成される共起辞書を生成する
共起辞書作成方法。
A co-occurrence dictionary creation method executed by a co-occurrence dictionary creation device having a rearrangement unit, an image generation unit, an image reduction unit, and a dictionary creation unit,
The reordering unit inputs a co-occurrence matrix in which numerical values representing the frequency of the words assigned to the row and the words assigned to the column appear simultaneously in the same sentence at the intersection of the row and the column. Reordering the rows and columns of the co-occurrence matrix so that semantically similar words are adjacent in the row and column directions;
The image generating unit has an image having a numerical value recorded at the intersection of the row and the column of the co-occurrence matrix after the rearrangement as a luminance value of a pixel corresponding to the intersection of the row and the column. Generate
The image reduction unit removes high frequency components from DCT coefficients generated by performing discrete cosine transform on the image, and performs inverse discrete cosine transform on the remaining DCT coefficients to reduce the vertical and horizontal sizes of the image to 1 / 2d ( d is a positive integer), and a reduced image is generated.
The dictionary creation unit has rows and columns corresponding to the rows and columns of the reduced image, and a reduced co-occurrence matrix in which luminance values of corresponding pixels in the reduced image are recorded as frequencies at intersections of the rows and columns. And a co-occurrence dictionary creation method for generating a co-occurrence dictionary composed of the identification numbers assigned to the rows and columns of the reduced co-occurrence matrix and the relationship information indicating the correspondence between the words.
コンピュータを、
行と列との交点に前記行に割り当てられた単語と前記列に割り当てられた単語とが同一文章中に同時に出現する頻度を表す数値を記録した共起マトリックスを入力し、意味的に類似する単語どうしが前記行方向および前記列方向に隣接するように前記共起マトリックスの前記行および前記列を並べ替える並べ替え部と、
前記並べ替え後の前記共起マトリックスの前記行と前記列との交点に記録された数値を、前記行と前記列との交点に対応する画素の輝度値として有する画像を生成する画像生成部と、
前記画像に対して離散コサイン変換を行って生成したDCT係数から高周波成分を取り除き、残ったDCT係数に逆離散コサイン変換を行って前記画像の縦横のサイズを1/2d(dは正の整数)に縮小した縮小画像を生成する画像縮小部と、
前記縮小画像の行および列に対応する行および列を有し、行と列との交点に前記縮小画像における対応する画素の輝度値が頻度として記録された縮小共起マトリックスと、前記縮小共起マトリックスの行および列に割り当てた識別番号と前記単語との対応を表す関係情報とから構成される共起辞書を生成する辞書作成部と
して機能させるためのプログラム。
Computer
Enter a co-occurrence matrix recording numerical values representing the frequency at which the word assigned to the row and the word assigned to the column appear simultaneously in the same sentence at the intersection of the row and the column, and are semantically similar A reordering unit that reorders the rows and columns of the co-occurrence matrix such that words are adjacent in the row direction and the column direction;
An image generation unit for generating an image having the numerical value recorded at the intersection of the row and the column of the co-occurrence matrix after the rearrangement as a luminance value of a pixel corresponding to the intersection of the row and the column; ,
High-frequency components are removed from DCT coefficients generated by performing discrete cosine transform on the image, and inverse discrete cosine transform is performed on the remaining DCT coefficients to reduce the vertical and horizontal size of the image to 1 / 2d (d is a positive integer). an image reducing unit that generates a reduced image obtained by reducing the,
A reduced co-occurrence matrix having rows and columns corresponding to the rows and columns of the reduced image, and a luminance value of a corresponding pixel in the reduced image recorded as a frequency at an intersection of the row and the column; and the reduced co-occurrence The program for functioning as a dictionary creation part which produces | generates the co-occurrence dictionary comprised from the relationship information showing the identification number allocated to the row | line | column and column of a matrix, and the said word.
JP2012033981A 2012-02-20 2012-02-20 Co-occurrence dictionary creation device Active JP5891837B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012033981A JP5891837B2 (en) 2012-02-20 2012-02-20 Co-occurrence dictionary creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012033981A JP5891837B2 (en) 2012-02-20 2012-02-20 Co-occurrence dictionary creation device

Publications (2)

Publication Number Publication Date
JP2013171382A JP2013171382A (en) 2013-09-02
JP5891837B2 true JP5891837B2 (en) 2016-03-23

Family

ID=49265279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012033981A Active JP5891837B2 (en) 2012-02-20 2012-02-20 Co-occurrence dictionary creation device

Country Status (1)

Country Link
JP (1) JP5891837B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668731B (en) * 2023-07-26 2023-11-10 深圳市君兰电子有限公司 Karaoke machine live broadcast stream transmission method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8443008B2 (en) * 2008-04-01 2013-05-14 Nec Corporation Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
JP5018817B2 (en) * 2009-03-27 2012-09-05 沖電気工業株式会社 Information processing apparatus, relevance calculation method, data search method, and program
JP2011227688A (en) * 2010-04-20 2011-11-10 Univ Of Tokyo Method and device for extracting relation between two entities in text corpus

Also Published As

Publication number Publication date
JP2013171382A (en) 2013-09-02

Similar Documents

Publication Publication Date Title
US10366154B2 (en) Information processing device, information processing method, and computer program product
US8577882B2 (en) Method and system for searching multilingual documents
US9965460B1 (en) Keyword extraction for relationship maps
CN105893337A (en) Method and equipment for text compression and decompression
US10614035B2 (en) Information processing system, information processing method, and computer product
US20150294187A1 (en) Image search apparatus and control method thereof
DE102018008188A1 (en) Create content based on multi-sentence compression of source content
KR20070090321A (en) System for extracting information from document, method thereof and recording medium thereof
CN114638914A (en) Image generation method and device, computer equipment and storage medium
JP2019204246A (en) Learning data creation method and learning data creation device
CN111199801B (en) Construction method and application of model for identifying disease types of medical records
CN114139040A (en) Data storage and query method, device, equipment and readable storage medium
JP5891837B2 (en) Co-occurrence dictionary creation device
DE102010048487A1 (en) Recording contents of display screens
WO2018080560A1 (en) Encoding edges in graph databases
JP2023010805A (en) Method for training document information extraction model and extracting document information, device, electronic apparatus, storage medium and computer program
US10409992B2 (en) Investigation apparatus, computer-readable recording medium, and investigation method
CN114238689A (en) Video generation method, video generation device, electronic device, storage medium, and program product
Rebollo-Neira A competitive scheme for storing sparse representation of X-Ray medical images
TWI644223B (en) Translation memory enhancement system
Bhargava et al. Mapping and Visualizing News Images for Media Research
JP6327918B2 (en) Image search apparatus and control method thereof
KR102545262B1 (en) Electronic terminal apparatus for providing information of the associated documents which are associated with the particular document based on simultaneous usage criteria and operating method thereof
US9805312B1 (en) Using an integerized representation for large-scale machine learning data
KR102500725B1 (en) Electronic apparatus that generates a summary of an electronic document based on key keywords and operating method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160208

R150 Certificate of patent or registration of utility model

Ref document number: 5891837

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150