JP5087326B2 - Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method - Google Patents

Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method Download PDF

Info

Publication number
JP5087326B2
JP5087326B2 JP2007164241A JP2007164241A JP5087326B2 JP 5087326 B2 JP5087326 B2 JP 5087326B2 JP 2007164241 A JP2007164241 A JP 2007164241A JP 2007164241 A JP2007164241 A JP 2007164241A JP 5087326 B2 JP5087326 B2 JP 5087326B2
Authority
JP
Japan
Prior art keywords
kana
pretend
combination
collection
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007164241A
Other languages
Japanese (ja)
Other versions
JP2009003717A (en
Inventor
秀樹 本野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007164241A priority Critical patent/JP5087326B2/en
Publication of JP2009003717A publication Critical patent/JP2009003717A/en
Application granted granted Critical
Publication of JP5087326B2 publication Critical patent/JP5087326B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、ふり仮名収集利用装置及びふり仮名収集利用方法に関する。   The present invention relates to a pretend kana collection and utilization device and a pretend kana collection and use method.

従来より、辞書を利用して漢字にふり仮名を付ける技術が提案されている(例えば、特許文献1)。また、例えば、特許文献2では、複数の漢字習得レベルの漢字辞書を用意し、他国語の日本語翻訳に対して、漢字の習得レベルに応じた日本語文章に変換し、若年層でも容易に読めるようにする技術が開示されている。しかし、いずれも辞書は予め準備しなければならず、辞書の登録データを自動的に収集する技術は開示されていない。
特開平10−91627号公報 特開2004−54784号公報
2. Description of the Related Art Conventionally, a technique for applying kana to kanji using a dictionary has been proposed (for example, Patent Document 1). In addition, for example, in Patent Document 2, a kanji dictionary with a plurality of kanji acquisition levels is prepared, and Japanese translations of other languages are converted into Japanese sentences according to the kanji acquisition level. A technique for enabling reading is disclosed. However, in any case, a dictionary must be prepared in advance, and a technique for automatically collecting dictionary registration data is not disclosed.
Japanese Patent Laid-Open No. 10-91627 JP 2004-54784 A

多くの漢字や熟語に対応したふり仮名を網羅する辞書を用意するのは大変手間がかかることである。また、語句の読み方については新しいものが使われ始めることがあり、これらをすばやく集めることは困難であった。一方、インターネット等を通じ、現実に多くの語句の読み方が使用されており、これらの中から精度の高い読み方(ふり仮名)情報を収集する技術が求められている。   It takes a lot of time and effort to prepare a dictionary that covers pretend kana corresponding to many kanji and idioms. Also, new ways of reading phrases may begin to be used, and it has been difficult to gather them quickly. On the other hand, many readings of words are actually used through the Internet and the like, and there is a demand for a technique for collecting reading (fake kana) information with high accuracy from these.

そこで、本発明は、既存のWebページ上で実際に使用されているふり仮名を自動的に収集し、使用目的に応じて再利用する方法を提供することを目的とする。   SUMMARY OF THE INVENTION An object of the present invention is to provide a method for automatically collecting pseudonyms actually used on an existing Web page and reusing them according to the purpose of use.

本発明者は、既存のWebページから収集したふり仮名をデータベースに蓄積し、その出現頻度に応じて精度の高いふり仮名、間違ったふり仮名等を判定し、使用目的に応じて再利用する装置及び方法を見出し、本発明を完成するに至った。
本発明は、具体的には次のようなものを提供する。
The inventor accumulates pretend kana collected from existing Web pages in a database, determines a high-precision pretend kana, incorrect pretend kana, etc. according to its appearance frequency, and reuses it according to the purpose of use. The headline and the present invention were completed.
Specifically, the present invention provides the following.

(1)Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段と、
前記ふり仮名データ取得手段により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段と、
前記ふり仮名データ記録手段により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段と、
を備えるふり仮名収集利用装置。
(1) Fake kana data acquisition means for acquiring a combination of a phrase composed of kanji and a fake kana from the contents of a web page;
Pretend kana data recording means for recording the combination acquired by the pretend kana data acquiring means together with the number of appearances;
Fake kana data extracting means for extracting the combination recorded by the fake kana data recording means based on the number of appearances;
Pretend Kana collection and use device equipped with.

この発明によれば、ふり仮名収集利用装置が、漢字で構成される語句とふり仮名との組み合わせをWebページ上から自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。   According to this invention, the pretend kana collection and utilization device automatically collects combinations of words and phrases composed of kanji and pretend kana from the web page and reuses them according to the number of appearances. Can be reused, and the commonly used pretend pseudonym can be reused.

(2)インターネットを通じて、複数のWebページの内容を取得するWebページ取得手段を備える(1)に記載のふり仮名収集利用装置。   (2) The pretending pseudonym collection / use device according to (1), further comprising Web page acquisition means for acquiring the contents of a plurality of Web pages through the Internet.

この発明によれば、ふり仮名収集利用装置が、複数のWebページの内容を取得するので、多くのWebページから漢字で構成される語句とふり仮名との組み合わせを自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。   According to this invention, the pretend kana collection and utilization apparatus acquires the contents of a plurality of Web pages, and therefore automatically collects combinations of words and phrases composed of kanji and pretend kana from many Web pages, and according to the number of appearances. Therefore, it is not necessary to manually create a dictionary or the like, and it is possible to reuse pretending pseudonyms that are widely used in general.

(3)前記Webページ取得手段は、前記内容を取得すべきWebページの最終更新日時がすでに取得したWebページの最終更新日時と一致する場合は、該Webページの内容を取得しないことを特徴とする(2)に記載のふり仮名収集利用装置。   (3) The Web page acquisition unit does not acquire the content of the Web page when the last update date and time of the Web page from which the content is to be acquired matches the last update date and time of the Web page that has already been acquired. The pretend pseudonym collection and utilization device described in (2).

この発明によれば、ふり仮名収集利用装置が、同一のWebページの内容を重複して取得しないので効率良くWebページの内容取得を行うことができる。   According to the present invention, the pretend pseudonym collection and utilization apparatus does not acquire the same Web page contents redundantly, so that the Web page contents can be efficiently acquired.

(4)前記ふり仮名データ取得手段は、前記Webページに表示されるルビから前記組み合わせを取得することを特徴とする(1)から(3)のいずれかに記載のふり仮名収集利用装置。   (4) The pretensional kana data acquisition unit according to any one of (1) to (3), wherein the pretend kana data acquisition unit acquires the combination from ruby displayed on the Web page.

この発明によれば、ふり仮名収集利用装置が、ルビから自動的に語句とふり仮名との組み合わせを取得するので、HTML(hypertext markup language)等のページ記述言語のルビタグ等を見ることで容易に語句とふり仮名との組み合わせを取得することができる。   According to this invention, since the pretend kana collection and acquisition device automatically acquires a combination of a phrase and a pretend kana from ruby, it is easy to see the phrase easily by looking at a ruby tag of a page description language such as HTML (hypertext markup language). A combination with pretend kana can be acquired.

(5)前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする(1)から(4)のいずれかに記載のふり仮名収集利用装置。   (5) The pretend kana data acquisition means, when all the characters in parentheses in the character string displayed on the Web page are hiragana characters and the characters immediately before the parentheses are kanji, the characters in the parentheses are immediately before the parentheses. (1) to (4), wherein the combination is acquired by regarding the kana as one of two or more consecutive kanji phrases.

この発明によれば、ふり仮名収集利用装置が、Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の連続する漢字の語句のふり仮名とみなして語句とふり仮名との組み合わせを取得するので、括弧をつけて付されたふり仮名を自動的に取得することができる。   According to the present invention, when the pretend kana collection / use apparatus is such that all the characters in the parentheses in the character string displayed on the Web page are hiragana characters and the character immediately before the parentheses is a kanji character, the characters in the parentheses are parentheses. Since a combination of a phrase and a pseudonym is acquired by assuming that it is a pseudonym of the immediately preceding kanji phrase, it is possible to automatically acquire a pseudonym attached with parentheses.

(6)前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする(1)から(5)のいずれかに記載のふり仮名収集利用装置。   (6) The pretend kana data acquisition means, when all the characters in parentheses in the character string displayed on the Web page are katakana, and the characters immediately before the parentheses are kanji, the characters in the parentheses are immediately before the parentheses. (1) to (5), wherein the combination is acquired by regarding the kana as one of two or more consecutive kanji phrases.

この発明によれば、ふり仮名収集利用装置が、Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の連続する漢字の語句のふり仮名とみなして語句とふり仮名との組み合わせを取得するので、(5)と同様の効果が期待できる。   According to the present invention, when the pretend kana collection and utilization device detects that all the characters in the parentheses in the character string displayed on the Web page are katakana and the character immediately before the parentheses is a kanji, the character in the parentheses is the parenthesis. Since a combination of a phrase and a pseudonym is acquired as if it were a pretend kana phrase of the immediately preceding kanji, the same effect as in (5) can be expected.

(7)前記出現回数は、前記組み合わせが取得されたWebページの数であることを特徴とする(1)から(6)のいずれかに記載のふり仮名収集利用装置。   (7) The pretending pseudonym collection / use device according to any one of (1) to (6), wherein the number of appearances is the number of Web pages from which the combination is acquired.

この発明によれば、ふり仮名収集利用装置が、同一のWebページの内容から重複して語句とふり仮名との組み合わせを収集しないので、間違ったふり仮名が同一のWebページに複数回使用されている場合にも、その影響を少なくするようにすることができる。   According to the present invention, since the pretend kana collection and utilization device does not collect the combination of the phrase and the pretend kana from the contents of the same web page, the wrong pretend kana is used multiple times for the same web page. However, the effect can be reduced.

(8)前記出現回数は、前記組み合わせが、前記Webページ取得手段により取得したWebページに実際に出現された回数であることを特徴とする(1)から(6)のいずれかに記載のふり仮名収集利用装置。   (8) The fake pseudonym according to any one of (1) to (6), wherein the number of appearances is the number of times the combination has actually appeared on the Web page acquired by the Web page acquisition unit Collection and utilization device.

この発明によれば、ふり仮名収集利用装置が、Webページに実際に出現した回数をカウントして語句とふり仮名との組み合わせを取得するので、例えば、ブログのように同一のWebページに複数人が文章を記載する場合に、使用者数を反映した収集を行うことができる。   According to the present invention, the pretend kana collection and utilization device counts the number of actual appearances on a web page and acquires a combination of a phrase and pretend kana, so that, for example, a plurality of people can write sentences on the same web page like a blog. Can be collected to reflect the number of users.

(9)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものを抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。   (9) The fake kana data extracting means extracts, from the combination recorded by the fake kana data recording means, the one having the largest number of appearances among the fake kana for the same word / phrase. (8) The pretending pseudonym collection and utilization device according to any one of (8).

この発明によれば、ふり仮名収集利用装置が、同一の語句に対し、世の中で最も広く使われている精度の高いふり仮名を取得することができる。   According to the present invention, the pretend kana collection / use apparatus can acquire the pretend pseudonym most widely used in the world for the same phrase.

(10)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものを抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。   (10) The fake kana data extracting means extracts, from the combinations recorded by the fake kana data recording means, those having the largest number of appearances among words for the same fake kana. (8) The pretending pseudonym collection and utilization device according to any one of (8).

この発明によれば、ふり仮名収集利用装置が、同一のふり仮名に対し、世の中で最も広く使われている語句を取得することができる。   According to the present invention, the pretend kana collection / use apparatus can acquire the most widely used words / phrases in the world for the same pretend kana.

(11)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、前記出現回数が所定の数より少ないものを間違いデータとして抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。   (11) The fake kana data extracting unit extracts, as error data, the combination recorded by the fake kana data recording unit and having the number of appearances smaller than a predetermined number. ) The pretending pseudonym collection and utilization device described in any of the above.

この発明によれば、ふり仮名収集利用装置が、出現回数が所定の数より少ない語句とふり仮名との組み合わせを取得することができるので、例えば、ふり仮名の間違い例を示すことができる。   According to the present invention, the pretend kana collection / use apparatus can acquire a combination of a phrase and a pretend pseudonym whose number of appearances is less than a predetermined number.

(12)コンピュータを用いて、ふり仮名に係る情報を集めるふり仮名収集利用方法であって、
インターネットを通じて、複数のWebページの内容を取得するステップと、
前記Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するステップと、
取得された前記組み合わせを出現回数とともに記録するステップと、
記録された前記組み合わせを前記出現回数に応じて抽出するステップと、
を含むことを特徴とするふり仮名収集利用方法。
(12) A fake pseudonym collection and usage method for collecting information related to fake kana using a computer,
Acquiring the contents of a plurality of Web pages via the Internet;
Obtaining a combination of words and phrases composed of kanji and pretend kana from the content of the web page;
Recording the acquired combination together with the number of appearances;
Extracting the recorded combination according to the number of appearances;
A pretend kana collection and use method characterized by including:

この発明によれば、コンピュータを用いて、当該方法を実行することにより、(2)と同様の効果が期待できる。   According to the present invention, the same effect as in (2) can be expected by executing the method using a computer.

この発明によれば、ふり仮名収集利用装置が、漢字で構成される語句とふり仮名との組み合わせをWebページ上から自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。
また、この発明によれば、ふり仮名収集利用装置が、出現回数に応じて語句とふり仮名との組み合わせを再利用することができるので、漢字の難易度や正誤等を考慮した使用目的に合わせてふり仮名の再利用を行うことができる。
According to this invention, the pretend kana collection and utilization device automatically collects combinations of words and phrases composed of kanji and pretend kana from the web page and reuses them according to the number of appearances. Can be reused, and the commonly used pretend pseudonym can be reused.
Further, according to the present invention, the pretend kana collection and utilization device can reuse the combination of the phrase and the pretend kana in accordance with the number of appearances, so that the pretend kana is adapted to the purpose of use in consideration of the difficulty and correctness of kanji. Can be reused.

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1の実施形態)
Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(First embodiment)

[全体図]
図1は、ふり仮名収集利用装置1と、ふり仮名収集利用装置1がインターネット10を通じてふり仮名データを収集するWebページ20〜24との関係を示した全体図である。ふり仮名収集利用装置1は、ふり仮名データを収集するためにWebページを取得するWebページ取得手段3と、Webページ取得手段3によって取得されたWebページからふり仮名データを取得するふり仮名データ取得手段4と、ふり仮名データ取得手段4によって取得されたふり仮名データを記録するふり仮名データ記録手段5と、ふり仮名データ記録手段5に記録されたふり仮名データを使用目的に応じて抽出するふり仮名データ抽出手段6と、これらの各手段を制御するとともに、インターネット10を通じてWebページ20〜24にアクセスするための通信制御を行う制御手段2とを備える。
なお、ふり仮名データとは、語句とふり仮名との組み合わせを意味するものであり、同一の語句に異なるふり仮名が付されたものや、異なる語句に同一のふり仮名データが付されたものは別のふり仮名データである。
[Overall view]
FIG. 1 is an overall view showing the relationship between the pretend pseudonym collection and use device 1 and the Web pages 20 to 24 on which the pretend pseudonym collection and use device 1 collects pretend pseudonym data through the Internet 10. The pretend kana collection and utilization device 1 includes a Web page acquisition unit 3 that acquires a Web page to collect pretend pseudonym data, a pretend pseudonym data acquisition unit 4 that acquires pretend pseudonym data from the Web page acquired by the Web page acquisition unit 3, The fake kana data recording means 5 for recording the fake kana data acquired by the fake kana data acquisition means 4, the fake kana data extracting means 6 for extracting the fake kana data recorded in the fake kana data recording means 5 according to the purpose of use, and each of these And a control unit 2 that controls communication and controls communication for accessing the Web pages 20 to 24 through the Internet 10.
Fake kana data means a combination of a phrase and a fake kana, and the same words with different kana, or different words with the same kana data are different kana data. It is.

[ふり仮名収集利用装置1のハードウェア構成]
図2は、本実施形態に係るふり仮名収集利用装置1のハードウェア構成を示す図である。
ふり仮名収集利用装置1は、制御装置40を構成するCPU(Central Processing Unit)41(マルチプロセッサ構成ではCPU42等複数のCPUが追加されてもよい)、バスライン30、通信I/F(I/F:インターフェイス)43、メインメモリ44、BIOS(Basic Input Output System)45、表示装置46、I/Oコントローラ47、並びにキーボード及びマウス等の入力装置48を備える。
[Hardware configuration of pretend kana collection and use device 1]
FIG. 2 is a diagram illustrating a hardware configuration of the pretending pseudonym collection and utilization apparatus 1 according to the present embodiment.
The fake pseudonym collection and utilization device 1 includes a CPU (Central Processing Unit) 41 (a plurality of CPUs such as the CPU 42 may be added in a multiprocessor configuration), a bus line 30, a communication I / F (I / F). Interface) 43, main memory 44, BIOS (Basic Input Output System) 45, display device 46, I / O controller 47, and input devices 48 such as a keyboard and a mouse.

通信I/F43は、ふり仮名収集利用装置1が、インターネット10を介してWebページ20〜24が保有されているサーバ等(図示せず)にアクセスするためのネットワーク・アダプタである。通信I/F43は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS45は、ふり仮名収集利用装置1の起動時にCPU41が実行するブートプログラムや、ふり仮名収集利用装置1のハードウェアに依存するプログラム等を記録する。
The communication I / F 43 is a network adapter for the pretend pseudonym collection and use device 1 to access a server or the like (not shown) in which the Web pages 20 to 24 are held via the Internet 10. The communication I / F 43 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter.
The BIOS 45 records a boot program executed by the CPU 41 when the pretend pseudonym collection / use device 1 is started, a program depending on the hardware of the pretend pseudonym collection / use device 1, and the like.

表示装置46は、ふり仮名収集利用装置1による演算処理結果等の画面を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ47には、ハードディスク49、及び半導体メモリ50等の記憶装置51を接続することができる。
入力装置48は、ふり仮名収集利用装置1の管理者による入力の受け付けを行うものである。
ハードディスク49は、ふり仮名収集利用装置1として機能するための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。
The display device 46 displays a screen of calculation processing results and the like by the pretend kana collection and utilization device 1, and includes display devices such as a cathode ray tube display device (CRT) and a liquid crystal display device (LCD).
A storage device 51 such as a hard disk 49 and a semiconductor memory 50 can be connected to the I / O controller 47.
The input device 48 accepts input by the administrator of the pretend kana collection / use device 1.
The hard disk 49 stores various programs for functioning as the pretend kana collection and utilization device 1, programs for executing the functions of the present invention, and a table to be described later.

以上の例は、ふり仮名収集利用装置1のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをふり仮名収集利用装置1として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したふり仮名収集利用装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。   Although the above example mainly explained the hardware configuration of the pretend kana collection and utilization device 1, the above-described functions are realized by installing a program on a computer and operating the computer as the pretend kana collection and utilization device 1. You can also Therefore, the function realized by the pretending pseudonym collecting and using apparatus 1 described as an embodiment in the present invention is executed by executing the above-described method by the computer or by introducing the above-described program into the computer. This is also possible.

なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、ふり仮名収集利用装置1は、記憶装置51、制御装置40等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図1に示した、制御手段2、Webページ取得手段3、ふり仮名データ取得手段4及びふり仮名データ抽出手段6には主として制御装置40が、ふり仮名データ記録手段5には記憶装置51が、それぞれ対応する。   Note that the computer in the present invention refers to an information processing device including a storage device, a control device, and the like, and the pretend kana collection and utilization device 1 includes an information processing device including a storage device 51, a control device 40, and the like. This information processing apparatus is included in the concept of the computer of the present invention. Here, the control unit 2, the web page acquisition unit 3, the pretend kana data acquisition unit 4 and the pretend kana data extraction unit 6 shown in FIG. Each corresponds.

[テーブル]
図3は、本実施形態に係るURL更新日時テーブルを示す図である。取得したWebページのURLアドレス100とそのWebページの最終更新日時101を保有する。URL更新日時テーブルは、Webページを取得したとき、そのWebページを保有しているサーバ等からそのWebページのファイルの最終更新日時を取得して、URLアドレス100とともに記録しておくものである。こうすれば、再度同一URLのWebページにアクセスしたとき、そのWebページを保有しているサーバ上に記録された最終更新日時が、URL更新日時テーブルに記録された最終更新日時101と一致する場合は、そのWebページについては前回取得時から内容が変わっていないことがわかるので、新たなふり仮名データの取得を省略することができる。
[table]
FIG. 3 is a diagram showing a URL update date / time table according to the present embodiment. It holds the URL address 100 of the acquired Web page and the last update date and time 101 of the Web page. The URL update date / time table acquires the last update date / time of a file of the Web page from a server or the like that holds the Web page when the Web page is acquired, and records it together with the URL address 100. In this way, when a Web page with the same URL is accessed again, the last update date and time recorded on the server that holds the Web page matches the last update date and time 101 recorded in the URL update date and time table. Since it can be seen that the content of the Web page has not changed since the previous acquisition, acquisition of new pretend kana data can be omitted.

図4は、本実施形態に係る更新予備テーブルを示す図である。更新予備テーブルは、同一のWebページ内に同じ語句とふり仮名の組み合わせが複数回出てくる場合に、出現回数を重複してカウントしないようにするために用いる作業用のテーブルである。使用方法については処理フローの説明の中で説明する。語句110とふり仮名111とから構成される。   FIG. 4 is a diagram showing an update reserve table according to the present embodiment. The update preliminary table is a work table used to avoid counting the number of appearances redundantly when a combination of the same phrase and pretend kana appears multiple times in the same Web page. The usage method will be described in the description of the processing flow. It consists of a phrase 110 and a pretend kana 111.

図5は、本実施形態に係る語句ふり仮名テーブルを示す図である。語句ふり仮名テーブルは、Webページから取得した語句120とふり仮名121の組み合わせを記録しておくためのテーブルであり、出現回数122も併せて記録している。この出現回数122を見ることで、よく使われるふり仮名や、間違ったふり仮名等の判断が可能となる。   FIG. 5 is a diagram showing a phrase pretending pseudonym table according to the present embodiment. The phrase pretend kana table is a table for recording a combination of the phrase 120 and the pretend kana 121 acquired from the Web page, and the appearance count 122 is also recorded. By looking at the number of appearances 122, it is possible to determine commonly used pretend kana or wrong pretend kana.

図6、図7は、使用目的に応じて、出現回数122に基づいて、語句ふり仮名テーブル(図5)から抽出した例を示している。具体的な利用方法については、後述する。   6 and 7 show examples extracted from the phrase pretend kana table (FIG. 5) based on the number of appearances 122 in accordance with the purpose of use. A specific usage method will be described later.

図8は、本実施形態に係る最頻ふり仮名テーブルを示す図である。最頻ふり仮名テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものをそれぞれ抽出したものである。最頻ふり仮名テーブルは、語句130、ふり仮名131及び出現回数132から構成される。   FIG. 8 is a view showing the most common pretend kana table according to the present embodiment. The most frequent pretend kana table is obtained by extracting, from the combination of the word 120 and the pretend kana 121 registered in the word pretend kana table (FIG. 5), those having the highest number of appearances among the pretend kana for the same word. The most common pretend kana table is composed of a phrase 130, pretend kana 131, and number of appearances 132.

図9は、本実施形態に係る最頻語句テーブルを示す図である。最頻語句テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものをそれぞれ抽出したものである。最頻語句テーブルは、語句140、ふり仮名141及び出現回数142から構成される。   FIG. 9 is a diagram showing a most frequent phrase table according to the present embodiment. The most frequent word / phrase table is obtained by extracting the most frequently occurring words / phrases for the same fake kana from the combinations of the word / phrase 120 and the fake kana 121 registered in the word / phrase kana table (FIG. 5). The most frequent phrase table is composed of a phrase 140, a pseudonym 141, and an appearance count 142.

図10は、本実施形態に係る間違い語句ふり仮名テーブルを示す図である。間違い語句ふり仮名テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、出現回数が一定回数以下のものを抽出したものである。間違い語句ふり仮名テーブルは、語句150、ふり仮名151及び出現回数152から構成される。   FIG. 10 is a diagram showing an incorrect word / phrase pretend kana table according to the present embodiment. The incorrect phrase pretending pseudonym table is obtained by extracting the combinations of the phrase 120 and the pretend pseudonym 121 registered in the phrase pretending pseudonym table (FIG. 5) and having the number of appearances not more than a predetermined number. The incorrect phrase pretend kana table is composed of a phrase 150, pretend kana 151, and number of appearances 152.

[処理フロー]
図11に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1の制御装置40が行うものとする。
本実施形態では、ふり仮名収集利用装置1の制御装置40が、予め定めた複数のURLアドレスに対して、所定のルールでインターネット10を通じてアクセスし、対応するWebページ20〜24の内容を収集するクローリングといわれる処理が行われることを前提としている。
ふり仮名収集利用装置1の制御装置40は、インターネット10を通じてURLアドレスに基づきWebページ20〜24にアクセスし、当該Webページのファイルの最終更新日時を取得する(S1000)。
[Processing flow]
The processing flow of the pretend kana collection and utilization device 1 will be described with reference to FIG. Unless otherwise specified, the following processing is performed by the control device 40 of the pretend pseudonym collection and utilization device 1.
In the present embodiment, the control device 40 of the pretending pseudonym collection and utilization device 1 accesses the plurality of predetermined URL addresses through the Internet 10 according to a predetermined rule and collects the contents of the corresponding Web pages 20 to 24. It is assumed that the process called is performed.
The control device 40 of the pretending pseudonym collection and utilization device 1 accesses the Web pages 20 to 24 based on the URL address through the Internet 10 and acquires the last update date and time of the file of the Web page (S1000).

次に、取得したWebページのURLアドレスがURL更新日時テーブル(図3)に登録されているか否かを調べる(S1010)。もし登録されていなければ(S1010:No)、URLアドレス100と最終更新日時101をURL更新日時テーブル(図3)に登録して(S1020)、Webページの内容を取得し(S1050)、ふり仮名取得の処理(S1060以降)に移る。登録されている場合は(S1010:Yes)、取得した当該Webページのファイルの最終更新日時とURL更新日時テーブル(図3)に登録されている最終更新日時101とを比較し、両者が一致するか否かを調べる(S1030)。そして両者が一致する場合は(S1030:Yes)、そのWebページは前回取得したときと内容が変わっていないので何も処理を行わず、そのWebページの処理は終了する。一致しない場合は(S1030:No)、そのWebページは前回取得したときと内容が変わっているので、URL更新日時テーブル(図3)の最終更新日時101を更新して(S1040)、Webページの内容を取得し(S1050)、ふり仮名取得の処理(S1060以降)に移る。   Next, it is checked whether or not the URL address of the acquired Web page is registered in the URL update date / time table (FIG. 3) (S1010). If not registered (S1010: No), the URL address 100 and the last update date / time 101 are registered in the URL update date / time table (FIG. 3) (S1020), the contents of the Web page are acquired (S1050), and the pseudonym is acquired. The process proceeds to (S1060 and later). If registered (S1010: Yes), the last update date and time of the obtained Web page file is compared with the last update date and time 101 registered in the URL update date and time table (FIG. 3), and the two match. It is checked whether or not (S1030). If the two match (S1030: Yes), the content of the Web page has not changed from the previous acquisition, so no processing is performed and the processing of the Web page ends. If they do not match (S1030: No), the content of the Web page is different from that obtained last time, so the last update date / time 101 in the URL update date / time table (FIG. 3) is updated (S1040). The contents are acquired (S1050), and the process proceeds to pretend pseudonym acquisition processing (S1060 and later).

次に、Webページの内容からふり仮名データを取得する(S1060)。ふり仮名データの取得には次の2つの方法で行う。1つはWebページの内容を記述するHTMLのルビタグを利用して取得する方法である。これは、HTMLの言語仕様に従い、<ruby>と</ruby>に囲まれる中にある<rb>の後にある語句と、<rt>の後にあるふり仮名とを対で取得するものである。   Next, pretend kana data is acquired from the contents of the Web page (S1060). The following two methods are used to acquire pretend kana data. One is a method of obtaining using an HTML ruby tag describing the contents of a Web page. According to the language specification of HTML, a phrase after <rb> in <ruby> and </ ruby> and a pseudonym after <rt> are acquired in pairs.

例えば、「<ruby><rb>七尾奈留<rt>ななをなる</ryby>」からは「語句:七尾奈留、ふり仮名:ななをなる」が取得される。また、「<ruby><rb>獣</rb><rp>(</rp><rt>けだもの</rt><rp>)</rp></ryby>」からは「語句:獣、ふり仮名:けだもの」が取得される。なお、HTML以外の言語であってもルビの機能があるものはそのルビを抽出することで同様に処理することができる。   For example, from “<ruby> <rb> Naru Nanao <rt> Nananar </ ryby>”, “Phrase: Naru Nanao, Pretend Kana: Nananaru” is acquired. From “<ruby> <rb> beast </ rb> <rp>” (</ rp> <rt> kadamono </ rt> <rp>) </ rp> </ ryby> Beast, pretend pseudonym: Kadamono "is acquired. Note that even languages other than HTML that have a ruby function can be processed in the same manner by extracting the ruby.

もう1つの方法は、表示されるテキスト中にある、括弧内の文字が全部ひらがなであって、括弧の直前の文字が漢字である場合に、その漢字と括弧内のひらがなを語句とふり仮名として取得するものである。この場合、漢字が複数個連続する場合は、これらをまとめて語句として取得する。例えば、「宥和(ゆうわ)」からは「語句:宥和、ふり仮名:ゆうわ」が取得される。しかし、例えば、「土方歳三(としぞう)」からは「語句:歳三、ふり仮名:としぞう」ではなく、「語句:土方歳三、ふり仮名:としぞう」が取得される。また、「徒然日記(のようなもの)」からは「語句:徒然日記、ふり仮名:のようなもの」が取得される。このようにふり仮名としては誤ったものが取得される可能性があるが、これについては後述の処理で対処する。漢字か否かは文字コードを見ることで判断できる。なお、ひらがなではなく、括弧内の文字が全部カタカナである場合も同様である。   The other method is that if all the characters in the parentheses in the displayed text are hiragana characters and the characters immediately before the parentheses are kanji, the kanji and the hiragana characters in the parentheses are acquired as phrases and pretend kana characters. To do. In this case, when a plurality of kanji characters are consecutive, they are collectively acquired as a phrase. For example, from “Yuwa”, “Phrase: Yuwa, Pretend Kana: Yuwa” is acquired. However, for example, from “Toshizo Hijikata”, “Phrase: Toshizo Hijikata, Pseudonym: Toshizo” is acquired instead of “Phrase: Toshizo, Pseudonym: Toshizo”. In addition, “phrase: natural diary, pretend pseudonym: like” is acquired from the “natural diary”. In this way, there is a possibility that an improper pseudonym is acquired, but this will be dealt with in the process described later. Whether or not it is a Chinese character can be determined by looking at the character code. The same applies when the characters in parentheses are all katakana instead of hiragana.

このようにして取得したふり仮名データは、更新予備テーブル(図4)に登録されているか否かを調べ(S1070)、登録されていない場合には(S1070:No)、更新予備テーブル(図4)に登録する(S1080)。登録されている場合には(S1070:Yes)、更新予備テーブル(図4)に登録はしない。そして、同一URLのWebページ内にまだふり仮名データがあるかどうかを調べる(S1090)。もしまだふり仮名データがあれば(S1090:Yes)、同様の仕方で、ふり仮名データを取得する(S1060)。このようにしてステップ1060からステップ1090までの処理を繰り返す。そして同一URLのWebページ内にふり仮名データがなくなれば(S1090:No)、更新予備テーブル(図4)に基づいて、語句ふり仮名テーブル(図5)に登録する(S1100〜S1140)。   It is checked whether or not the pretend pseudonym data acquired in this way is registered in the update reserve table (FIG. 4) (S1070). If not registered (S1070: No), the update reserve table (FIG. 4). (S1080). If it is registered (S1070: Yes), it is not registered in the update preliminary table (FIG. 4). Then, it is checked whether there is still pseudonym data in the Web page with the same URL (S1090). If there is still pretend kana data (S1090: Yes), pretend kana data is acquired in the same manner (S1060). In this way, the processing from step 1060 to step 1090 is repeated. If there is no pretend kana data in the Web page with the same URL (S1090: No), it is registered in the pretend kana table (FIG. 5) based on the update preliminary table (FIG. 4) (S1100 to S1140).

次に、図12に従って、語句ふり仮名テーブル(図5)への登録について説明する。まず、更新予備テーブル(図4)に登録された語句とふり仮名の組み合わせを読み出す(S1100)。そして読み出した語句とふり仮名の組み合わせが、語句ふり仮名テーブル(図5)にすでに登録されているか否かを調べる(S1110)。もし登録があれば(S1110:Yes)、出現回数122に「1」を加算する(S1120)。もし登録がなければ(S1110:No)、その語句とふり仮名の組み合わせを語句ふり仮名テーブル(図5)に登録し、出現回数122に「1」をセットする(S1130)。この処理を更新予備テーブル(図4)に登録されたすべてのふり仮名データについて繰り返す(S1140)。   Next, registration to the phrase pretending pseudonym table (FIG. 5) will be described with reference to FIG. First, a combination of words and pretend kana registered in the update reserve table (FIG. 4) is read (S1100). Then, it is checked whether or not the combination of the read phrase and pretend kana has already been registered in the pretend kana table (FIG. 5) (S1110). If registered (S1110: Yes), “1” is added to the appearance count 122 (S1120). If there is no registration (S1110: No), the combination of the phrase and pretend kana is registered in the pretend kana table (FIG. 5), and “1” is set in the appearance count 122 (S1130). This process is repeated for all pretend pseudonym data registered in the update reserve table (FIG. 4) (S1140).

このようにすることで、多くのWebページで実際に使用されている語句とふり仮名との組み合わせが出現回数とともに自動的に収集されるので、仮にあるWebページで誤ったふり仮名が付されていても、出現回数をチェックすることで、多くの人に使われている精度の高いふり仮名を収集することができる。
また、この出現回数は、同一Webページに複数回現れた同一のふり仮名データについては1回としてカウントするので、例えば、ある人が同一のWebページ内で誤ったふり仮名データを繰り返し使用しても、最終的に語句ふり仮名テーブル(図5)に記録される出現回数は1回として取り扱われ、誤ったふり仮名が正しいふり仮名と認識される可能性が抑えられる。
In this way, combinations of words and pretend kana that are actually used on many Web pages are automatically collected along with the number of appearances, so even if a pretend pseudonym is attached to a Web page. By checking the number of appearances, it is possible to collect pretending pseudonyms used by many people with high accuracy.
In addition, since the number of appearances is counted as one for the same pretend kana data that appears multiple times on the same Web page, for example, even if a certain person repeatedly uses pretend pseudonym data in the same Web page, The number of appearances finally recorded in the phrase pretend kana table (FIG. 5) is handled as one, and the possibility that an incorrect pretend kana is recognized as a correct pretend kana is suppressed.

[ふり仮名データの再利用]
ふり仮名121又は語句120をキーとして、語句ふり仮名テーブル(図5)を絞り込み、出現回数122の順に表示すると、Webページ上で使用されている頻度の順に当該ふり仮名121に対する語句120、又は当該語句120に対するふり仮名121が表示される。「あすか」というふり仮名121で語句ふり仮名テーブル(図5)の絞込みを行った例を図6、「明星」という語句120で語句ふり仮名テーブル(図5)の絞込みを行った例を図7に示した。こうすることにより使用目的に応じたふり仮名データを取得することができる。
[Reuse of pretend kana data]
By narrowing down the phrase pseudonym table (FIG. 5) using the pretend kana 121 or the phrase 120 as a key and displaying them in the order of the number of appearances 122, the phrase 120 or the phrase 120 for the pretend kana 121 in the order of frequency used on the Web page. A pretend pseudonym 121 is displayed. FIG. 6 shows an example of narrowing down the phrase pseudonym table (FIG. 5) with the pretend pseudonym 121 “Asuka”, and FIG. 7 shows an example of narrowing down the pretend pseudonym table (FIG. 5) with the phrase 120 “Meisei”. . In this way, pretend kana data corresponding to the purpose of use can be acquired.

例えば、通常の文章をWebページ上で表示する場合、例えば、「明星」という語句に対しては、出現回数の一番多い「みょうじょう」というふり仮名を付するようにすることができる。   For example, when a normal sentence is displayed on a Web page, for example, the phrase “Myosei” can be given the pseudonym “Myojo” with the highest number of appearances.

また、出現回数が多いものほど、多くのWebページでふり仮名が付されて使用されていることを示しているので、一般にふり仮名を付さないと読むのが困難な語句であることが推定される。例えば、出現回数が1000回以上であればその語句は一般的に読み方が難しいものであると決めればよい。また、それほど多くはないが、一定回数以上の出現回数のものは、ふり仮名が付けられたり付けられなかったりすることがあるものと考えられる。   In addition, since the number of appearances is larger, it indicates that many web pages are used with pretend kana, so it is generally estimated that the phrase is difficult to read without pretend kana. . For example, if the number of appearances is 1000 times or more, it may be determined that the word is generally difficult to read. Moreover, although not so many, it is thought that a person with the appearance frequency more than a certain number of times may or may not be pretend to be a pseudonym.

例えば、最頻ふり仮名テーブル(図8)の例によれば、「蒲公英」、「倫敦」には1000回以上Webページでふり仮名が付けられているので、一般的に大人であっても読みにくい語句であると考えることができる。また、「土筆」、「憂鬱」は、それぞれ800回、300回であるので、「蒲公英」、「倫敦」ほどではないにしてもやはり読みにくい語句であると一般的には考えられているとみなすことができる。したがって、Webページを作成するとき、そのWebページの想定される利用者が大人の場合は出現回数が1000回以上のふり仮名データを利用し、想定される利用者が中学生や高校生の場合は、例えば、300回以上のふり仮名データを利用する等の利用方法が考えられる。   For example, according to the example of the most common pretend kana table (FIG. 8), “Kin-Kingei” and “Lunyi” are pretend to be pretend to be used on web pages more than 1000 times. Can be considered. In addition, “Etsubushi” and “Melancholy” are 800 times and 300 times, respectively, so they are generally considered to be difficult to read words, even though they are not as good as “Kang Koei” and “Lunyi”. Can be considered. Therefore, when creating a Web page, if the assumed user of the Web page is an adult, pretend kana data with an appearance count of 1000 or more is used, and if the assumed user is a junior high school student or a high school student, for example, A usage method such as using pretend kana data of 300 times or more is conceivable.

また、最頻語句テーブル(図9)によれば、同一のふり仮名について最も出現回数の多い語句を知ることができる。
一方、「亜巣化」(あすか)については、出現回数が1回であるため、誤ったふり仮名が付されたものと推定されるので、一般的には利用されることはない。しかし、間違い語句ふり仮名テーブル(図10)のような、出現回数が一定回数以下(例えば、10回以下)のものを抽出したテーブルを作成し、例えば、「Webページで見つけた間違いふり仮名事例」というような形でWebページに表示して利用することもできる。
Further, according to the most frequent word / phrase table (FIG. 9), it is possible to know the word / phrase having the highest number of appearances for the same fake kana.
On the other hand, “sub-nest” (Asuka) has only one appearance, so it is presumed that an impersonated pseudonym is attached, so it is not generally used. However, a table in which the number of appearances is equal to or less than a certain number of times (for example, 10 times or less), such as an erroneous word pretending kana table (FIG. 10), is created. It can also be displayed and used on a Web page in such a form.

(第2の実施形態)
なお、第1の実施形態では、同一のWebページに同一のふり仮名データが複数回出現する場合は1回としてカウントしたが、特にこれに限定されるものではない。出現回数をそのままカウントし、語句ふり仮名テーブル(図5)の出現回数122に反映するようにしてもよい。
(Second Embodiment)
In the first embodiment, when the same pretend pseudonym data appears multiple times on the same Web page, it is counted as one time. However, the present invention is not particularly limited to this. The number of appearances may be counted as it is and reflected in the number of appearances 122 in the phrase pretend kana table (FIG. 5).

本実施形態では、図1〜3、図5は第1の実施形態と同様である。但し、更新予備テーブル(図4)は本実施形態では使用しない。   In the present embodiment, FIGS. 1 to 3 and FIG. 5 are the same as those in the first embodiment. However, the update spare table (FIG. 4) is not used in this embodiment.

[処理フロー]
図13に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1を処理するコンピュータの制御装置40が行うものとする。図11及び図12と同じ処理を行う部分は同じ番号を付している。
[Processing flow]
The processing flow of the pretend kana collection and utilization device 1 will be described with reference to FIG. Unless otherwise specified, the following processing is performed by the control device 40 of the computer that processes the pretend pseudonym collection and utilization device 1. Parts that perform the same processing as in FIGS. 11 and 12 are given the same numbers.

ステップ1000〜1060は図11と同一である。本実施形態では、同一Webページに現れたふり仮名データはすべてカウントするため、更新予備テーブルへの登録は行わず、Webページから取得したふり仮名データ(S1060)はすべて語句ふり仮名テーブル(図5)に反映する。語句ふり仮名テーブル(図5)への登録処理(S1110〜S1130)は図12と同一である。しかし、語句ふり仮名テーブル(図5)への登録処理(S1110〜S1130)が終わった後、同一URLのWebページ内にまだふり仮名データがあるかどうかを調べる(S1150)。もしまだふり仮名データがあれば(S1150:Yes)、同様の仕方で、ふり仮名データを取得する(S1060)。もうふり仮名データがなければ(S1150:No)、処理を終了する。
こうすることで、同一のふり仮名データを実際に出現した回数でカウントするので、例えば、ブログのように同一のWebページに複数人が文章を記載する場合に、世の中で実際に使用されている頻度を反映した収集を行うことができる。
Steps 1000 to 1060 are the same as those in FIG. In this embodiment, since all pretend kana data appearing on the same Web page is counted, registration is not performed in the update reserve table, and all pretend kana data (S1060) acquired from the Web page is reflected in the phrase pretend kana table (FIG. 5). To do. The registration process (S1110 to S1130) to the phrase pretending kana table (FIG. 5) is the same as FIG. However, after the registration process (S1110 to S1130) in the phrase pretending pseudonym table (FIG. 5) is completed, it is checked whether or not pretend pseudonym data still exists in the Web page with the same URL (S1150). If there is still pretend kana data (S1150: Yes), pretend kana data is acquired in the same manner (S1060). If there is no more pretend kana data (S1150: No), the process is terminated.
In this way, since the same pretend pseudonym data is counted by the number of times it actually appears, for example, when multiple people write sentences on the same Web page like a blog, the frequency that is actually used in the world Can be collected.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.

本発明の実施形態の一例に係るふり仮名収集利用装置1と、ふり仮名収集利用装置1がインターネット10を通じてふり仮名データを収集するWebページ20〜24との関係を示した全体図である。It is the whole figure which showed the relationship between the pretend pseudonym collection and utilization apparatus 1 which concerns on an example of embodiment of this invention, and the Web pages 20-24 which pretend pseudonym collection and utilization apparatus 1 collects pretend pseudonym data via the internet 10. FIG. 本発明の実施形態の一例に係るふり仮名収集利用装置1のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the pretend pseudonym collection utilization apparatus 1 which concerns on an example of embodiment of this invention. 本発明の実施形態の一例に係るURL更新日時テーブルを示す図である。It is a figure which shows the URL update date table which concerns on an example of embodiment of this invention. 本発明の実施形態の一例に係る更新予備テーブルを示す図である。It is a figure which shows the update reserve table which concerns on an example of embodiment of this invention. 本発明の実施形態の一例に係る語句ふり仮名テーブルを示す図である。It is a figure which shows the phrase pretending pseudonym table which concerns on an example of embodiment of this invention. 語句ふり仮名テーブル(図5)から、ふり仮名をキーとして抽出した例を示す図である。It is a figure which shows the example extracted from the phrase pretend kana table (FIG. 5) using the pretend kana as a key. 語句ふり仮名テーブル(図5)から、語句をキーとして抽出した例を示す図である。It is a figure which shows the example extracted from the phrase pretend kana table (FIG. 5) using a phrase as a key. 本発明の実施形態の一例に係る最頻ふり仮名テーブルを示す図である。It is a figure which shows the most frequent pretend kana table which concerns on an example of embodiment of this invention. 本発明の実施形態の一例に係る最頻語句テーブルを示す図である。It is a figure which shows the most frequent word phrase table which concerns on an example of embodiment of this invention. 本発明の実施形態の一例に係る間違い語句ふり仮名テーブルを示す図である。It is a figure which shows the kana phrase pretending pseudonym table which concerns on an example of embodiment of this invention. 本発明の第1の実施形態に係るふり仮名収集利用装置1の処理のフローチャート(その1)である。It is a flowchart (the 1) of a process of the pretending pseudonym collection utilization apparatus 1 which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るふり仮名収集利用装置1の処理のフローチャート(その2)である。It is a flowchart (the 2) of a process of the pretending pseudonym collection utilization apparatus 1 which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係るふり仮名収集利用装置1の処理のフローチャートである。It is a flowchart of a process of the pretend pseudonym collection utilization apparatus 1 which concerns on the 2nd Embodiment of this invention.

符号の説明Explanation of symbols

1 ふり仮名収集利用装置
2 制御手段
3 Webページ取得手段
4 ふり仮名データ取得手段
5 ふり仮名データ記録手段
6 ふり仮名データ抽出手段
10 インターネット
20〜24 Webページ
30 バスライン
40 制御装置
41、42 CPU(Central Processing Unit)
43 通信I/F(I/F:インターフェイス)
44 メインメモリ
45 BIOS(Basic Input Output System)
46 表示装置
47 I/Oコントローラ
48 入力装置
49 ハードディスク
50 半導体メモリ
51 記憶装置
DESCRIPTION OF SYMBOLS 1 Prediction Kana collection utilization apparatus 2 Control means 3 Web page acquisition means 4 Prediction Kana data acquisition means 5 Prediction Kana data recording means
6 Pretend Kana data extraction means 10 Internet 20-24 Web page 30 Bus line 40 Control device 41, 42 CPU (Central Processing Unit)
43 Communication I / F (I / F: Interface)
44 Main memory 45 BIOS (Basic Input Output System)
46 Display Device 47 I / O Controller 48 Input Device 49 Hard Disk 50 Semiconductor Memory 51 Storage Device

Claims (12)

Webページ内のテキストから、予め定められた条件を満たす語句の組み合わせを漢字で構成される語句とそのふり仮名との組み合わせとして取得するふり仮名データ取得手段と、
前記ふり仮名データ取得手段により取得された前記組み合わせをその組み合わせの出現回数とともにテーブルに記録するふり仮名データ記録手段と、
前記ふり仮名データ記録手段により前記テーブルに記録された前記組み合わせから、前記出現回数の大小に基づいて、辞書として利用するための組み合わせを抽出するふり仮名データ抽出手段と、を備え、
前記ふり仮名データ抽出手段は、前記テーブルに記録された組み合わせのうち、前記出現回数が予め定められた閾値以上の組み合わせを、一般に読みが難しい語句であると推定する、ことを特徴とするふり仮名収集利用装置。
Pretend kana data acquisition means for acquiring, from a text in a web page, a combination of words that satisfy a predetermined condition as a combination of a word composed of kanji and its pretend kana,
Fake kana data recording means for recording the combination acquired by the fake kana data acquisition means in a table together with the number of appearances of the combination;
Fake kana data extraction means for extracting a combination for use as a dictionary from the combinations recorded in the table by the fake kana data recording means, based on the magnitude of the number of appearances ,
The pretend kana data extraction means presumes that a combination whose number of appearances is equal to or greater than a predetermined threshold among the combinations recorded in the table is generally difficult to read and used apparatus.
前記ふり仮名データ抽出手段は、作成対象のWebページが想定する利用者の年齢層に応じて設定された前記閾値を用いて、当該利用者の年齢層によって特定される出現回数を満たす前記組み合わせを辞書として抽出することを特徴とする請求項1に記載のふり仮名収集利用装置。 The pretend kana data extracting means uses the threshold value set according to the age group of the user assumed by the Web page to be created, and the dictionary satisfying the number of appearances specified by the age group of the user 2. The pretend kana collection and utilization device according to claim 1, wherein インターネットを通じて、複数のWebページの内容を取得する際に、前記内容を取得すべきWebページの最終更新日時がすでに取得したWebページの最終更新日時と一致する場合は、該Webページの内容を取得しないWebページ取得手段をさらに備えることを特徴とする請求項1または2に記載のふり仮名収集利用装置。 When acquiring the contents of a plurality of Web pages via the Internet, if the last update date / time of the Web page from which the contents are to be acquired matches the last update date / time of the already acquired Web page, the contents of the Web page are acquired. phonetic collection using apparatus according to claim 1 or 2, further comprising a Web page acquiring unit not. 前記ふり仮名データ取得手段は、前記Webページに表示されるルビから前記組み合わせを取得することを特徴とする請求項1から3のいずれかに記載のふり仮名収集利用装置。   4. The pretensional kana data collection and utilization apparatus according to claim 1, wherein the pretend pseudonym data acquisition unit acquires the combination from ruby displayed on the Web page. 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から4のいずれかに記載のふり仮名収集利用装置。   The pretend kana data acquisition means, when all the characters in parentheses in the character string displayed on the Web page are hiragana characters and the characters immediately before the parentheses are kanji, the characters in the parentheses are 1 or 5. The pretend kana collection and use apparatus according to claim 1, wherein the combination is acquired by regarding the pretend kana as two or more consecutive kanji phrases. 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から5のいずれかに記載のふり仮名収集利用装置。   The pretend kana data acquisition means, when all the characters in parentheses in the character string displayed on the Web page are katakana, and the characters immediately before the parentheses are kanji, the characters in the parentheses are 1 or 6. The pretend kana collection and use apparatus according to claim 1, wherein the combination is acquired by regarding the pretend kana as two or more consecutive kanji phrases. 前記出現回数は、前記組み合わせが取得されたWebページの数であることを特徴とする請求項1から6のいずれかに記載のふり仮名収集利用装置。   The fake pseudonym collection / use device according to claim 1, wherein the appearance count is the number of Web pages from which the combination is acquired. 前記出現回数は、前記組み合わせが、前記Webページ取得手段により取得したWebページに実際に出現された回数であることを特徴とする請求項から6のいずれかに記載のふり仮名収集利用装置。 7. The pretending pseudonym collection and utilization apparatus according to claim 3 , wherein the number of appearances is the number of times the combination has actually appeared on a Web page acquired by the Web page acquisition unit. 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により前記テーブルに記録された前記組み合わせから、同一の語句に対するふり仮名の中で前記出現回数が最も多いものを、前記辞書として利用するための組み合わせとして抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。   The phonetic kana data extracting means extracts, from the combinations recorded in the table by the phonetic kana data recording means, those having the highest appearance frequency among the kana for the same word / phrase as combinations for use as the dictionary. 9. The pretend pseudonym collection and use device according to claim 1, wherein 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により前記テーブルに記録された前記組み合わせから、同一のふり仮名に対する語句の中で前記出現回数が最も多いものを、前記辞書として利用するための組み合わせとして抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。   The phonetic kana data extracting means extracts, from the combinations recorded in the table by the phonetic kana data recording means, the phrase having the highest number of appearances among the phrases for the same phonetic kana as a combination for use as the dictionary. 9. The pretend pseudonym collection and use device according to claim 1, wherein 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により前記テーブルに記録された前記組み合わせから、前記出現回数が所定の数より少ないものを間違いデータとして抽出することを、前記辞書として利用するための組み合わせとして特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。   The fake kana data extraction means is a combination for using as a dictionary that extracting, from the combination recorded in the table by the fake kana data recording means, data having an appearance frequency less than a predetermined number as error data 9. The pretend pseudonym collection and use device according to claim 1, characterized in that: コンピュータが実行する、ふり仮名に係る情報を集めるふり仮名収集利用方法であって、
前記コンピュータがインターネットを通じて、Webページが保有されているサーバから複数のWebページの内容を取得するステップと、
前記コンピュータが取得した前記Webページ内のテキストから、予め定められた条件を満たす語句の組み合わせを漢字で構成される語句とそのふり仮名との組み合わせとして取得するステップと、
前記コンピュータが取得した前記組み合わせをその組み合わせの出現回数とともにテーブルに記録するステップと、
前記コンピュータが前記テーブルに記録した前記組み合わせから、前記出現回数の大小に応じて、辞書として利用するための組み合わせを抽出するステップと、を含み、
前記抽出するステップは、前記テーブルに記録された組み合わせのうち、前記出現回数が予め定められた閾値以上の組み合わせを、一般に読みが難しい語句であると推定する、ことを特徴とするふり仮名収集利用方法。
A fake pseudonym collection and use method for collecting information on pretend kana executed by a computer,
The computer acquiring the contents of a plurality of Web pages from a server on which the Web pages are held via the Internet;
Acquiring from the text in the web page acquired by the computer a combination of words that satisfy a predetermined condition as a combination of a word composed of kanji and its pretend kana;
Recording the combination acquired by the computer in a table together with the number of occurrences of the combination;
Extracting the combination to be used as a dictionary from the combinations recorded in the table by the computer according to the number of appearances , and
The extracting step estimates a combination whose number of appearances is equal to or greater than a predetermined threshold among the combinations recorded in the table as a word that is generally difficult to read. .
JP2007164241A 2007-06-21 2007-06-21 Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method Expired - Fee Related JP5087326B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007164241A JP5087326B2 (en) 2007-06-21 2007-06-21 Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007164241A JP5087326B2 (en) 2007-06-21 2007-06-21 Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method

Publications (2)

Publication Number Publication Date
JP2009003717A JP2009003717A (en) 2009-01-08
JP5087326B2 true JP5087326B2 (en) 2012-12-05

Family

ID=40320034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007164241A Expired - Fee Related JP5087326B2 (en) 2007-06-21 2007-06-21 Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method

Country Status (1)

Country Link
JP (1) JP5087326B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084524A1 (en) * 2009-01-20 2010-07-29 Yamamoto Emi Information processing system and program
JP2012068899A (en) * 2010-09-24 2012-04-05 Fujitsu Social Science Laboratory Ltd Word/phrase rearrangement device, method and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01303334A (en) * 1987-10-05 1989-12-07 Asics Corp Damping member
JPH096378A (en) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd Text voice conversion device
JP2000250915A (en) * 1999-02-25 2000-09-14 Shogakukan Inc New word candidate collection system and method and computer readable recording medium recording program for the system and method
JP2001184355A (en) * 1999-12-22 2001-07-06 Fujitsu Ltd Information collecting system, contents server, information collecting device and recording medium
JP2003085181A (en) * 2001-09-07 2003-03-20 Japan Science & Technology Corp Encyclopedia system
JP2006194952A (en) * 2005-01-11 2006-07-27 Nissan Motor Co Ltd Registering method for sentence analysis dictionary for voice synthesis and voice reading device using the method

Also Published As

Publication number Publication date
JP2009003717A (en) 2009-01-08

Similar Documents

Publication Publication Date Title
JP5761833B2 (en) Dictionary candidates for partial user input
US10140260B2 (en) Intelligent text reduction for graphical interface elements
JPH11203311A (en) Device for extracting related word and method therefor and computer readable recording medium for recording related word extraction program
JPH11110416A (en) Method and device for retrieving document from data base
JP2009500754A (en) Handle collocation errors in documents
KR20110081194A (en) System for extracting term from document containing text segment
US20020152258A1 (en) Method and system of intelligent information processing in a network
JP6404511B2 (en) Translation support system, translation support method, and translation support program
US10503808B2 (en) Time user interface with intelligent text reduction
CN113050808A (en) Method and device for highlighting target text in input box
Glass et al. A naive salience-based method for speaker identification in fiction books
CN112380337A (en) Highlight method and device based on rich text
JP5087326B2 (en) Pretend Kana Collection and Use Device and Pretend Kana Collection and Use Method
US7383532B2 (en) System and method for client-side locale specific numeric format handling in a web environment
CN101425087A (en) Method and system for constructing dictionary
JP7064871B2 (en) Text mining device and text mining method
JP6114090B2 (en) Machine translation apparatus, machine translation method and program
CN112417851A (en) Text error correction word segmentation method and system and electronic equipment
JP3450598B2 (en) Technical term dictionary selection device
JP5412137B2 (en) Machine learning apparatus and method
JP2621999B2 (en) Document processing device
JP7223450B2 (en) Automatic translation device and automatic translation program
JP4864811B2 (en) Error information collecting apparatus, method and program
CN114283914A (en) Medical data conversion method and device and electronic equipment
WO2014138756A1 (en) System and method for automatic diacritizing vietnamese text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

R150 Certificate of patent or registration of utility model

Ref document number: 5087326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371