JP2009003717A - ふり仮名収集利用装置及びふり仮名収集利用方法 - Google Patents

ふり仮名収集利用装置及びふり仮名収集利用方法 Download PDF

Info

Publication number
JP2009003717A
JP2009003717A JP2007164241A JP2007164241A JP2009003717A JP 2009003717 A JP2009003717 A JP 2009003717A JP 2007164241 A JP2007164241 A JP 2007164241A JP 2007164241 A JP2007164241 A JP 2007164241A JP 2009003717 A JP2009003717 A JP 2009003717A
Authority
JP
Japan
Prior art keywords
kana
pretend
web page
collection
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007164241A
Other languages
English (en)
Other versions
JP5087326B2 (ja
Inventor
Hideki Motono
秀樹 本野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007164241A priority Critical patent/JP5087326B2/ja
Publication of JP2009003717A publication Critical patent/JP2009003717A/ja
Application granted granted Critical
Publication of JP5087326B2 publication Critical patent/JP5087326B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】既存のWebページ上で実際に使用されているふり仮名を自動的に収集し、使用目的に応じて再利用する方法を提供すること。
【解決手段】ふり仮名収集利用装置1は、Webページ20〜24の内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段4と、前記ふり仮名データ取得手段4により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段5と、前記ふり仮名データ記録手段5により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段6と、を備える。
【選択図】図1

Description

本発明は、ふり仮名収集利用装置及びふり仮名収集利用方法に関する。
従来より、辞書を利用して漢字にふり仮名を付ける技術が提案されている(例えば、特許文献1)。また、例えば、特許文献2では、複数の漢字習得レベルの漢字辞書を用意し、他国語の日本語翻訳に対して、漢字の習得レベルに応じた日本語文章に変換し、若年層でも容易に読めるようにする技術が開示されている。しかし、いずれも辞書は予め準備しなければならず、辞書の登録データを自動的に収集する技術は開示されていない。
特開平10−91627号公報 特開2004−54784号公報
多くの漢字や熟語に対応したふり仮名を網羅する辞書を用意するのは大変手間がかかることである。また、語句の読み方については新しいものが使われ始めることがあり、これらをすばやく集めることは困難であった。一方、インターネット等を通じ、現実に多くの語句の読み方が使用されており、これらの中から精度の高い読み方(ふり仮名)情報を収集する技術が求められている。
そこで、本発明は、既存のWebページ上で実際に使用されているふり仮名を自動的に収集し、使用目的に応じて再利用する方法を提供することを目的とする。
本発明者は、既存のWebページから収集したふり仮名をデータベースに蓄積し、その出現頻度に応じて精度の高いふり仮名、間違ったふり仮名等を判定し、使用目的に応じて再利用する装置及び方法を見出し、本発明を完成するに至った。
本発明は、具体的には次のようなものを提供する。
(1)Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段と、
前記ふり仮名データ取得手段により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段と、
前記ふり仮名データ記録手段により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段と、
を備えるふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、漢字で構成される語句とふり仮名との組み合わせをWebページ上から自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。
(2)インターネットを通じて、複数のWebページの内容を取得するWebページ取得手段を備える(1)に記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、複数のWebページの内容を取得するので、多くのWebページから漢字で構成される語句とふり仮名との組み合わせを自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。
(3)前記Webページ取得手段は、前記内容を取得すべきWebページの最終更新日時がすでに取得したWebページの最終更新日時と一致する場合は、該Webページの内容を取得しないことを特徴とする(2)に記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、同一のWebページの内容を重複して取得しないので効率良くWebページの内容取得を行うことができる。
(4)前記ふり仮名データ取得手段は、前記Webページに表示されるルビから前記組み合わせを取得することを特徴とする(1)から(3)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、ルビから自動的に語句とふり仮名との組み合わせを取得するので、HTML(hypertext markup language)等のページ記述言語のルビタグ等を見ることで容易に語句とふり仮名との組み合わせを取得することができる。
(5)前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする(1)から(4)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の連続する漢字の語句のふり仮名とみなして語句とふり仮名との組み合わせを取得するので、括弧をつけて付されたふり仮名を自動的に取得することができる。
(6)前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする(1)から(5)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の連続する漢字の語句のふり仮名とみなして語句とふり仮名との組み合わせを取得するので、(5)と同様の効果が期待できる。
(7)前記出現回数は、前記組み合わせが取得されたWebページの数であることを特徴とする(1)から(6)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、同一のWebページの内容から重複して語句とふり仮名との組み合わせを収集しないので、間違ったふり仮名が同一のWebページに複数回使用されている場合にも、その影響を少なくするようにすることができる。
(8)前記出現回数は、前記組み合わせが、前記Webページ取得手段により取得したWebページに実際に出現された回数であることを特徴とする(1)から(6)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、Webページに実際に出現した回数をカウントして語句とふり仮名との組み合わせを取得するので、例えば、ブログのように同一のWebページに複数人が文章を記載する場合に、使用者数を反映した収集を行うことができる。
(9)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものを抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、同一の語句に対し、世の中で最も広く使われている精度の高いふり仮名を取得することができる。
(10)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものを抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、同一のふり仮名に対し、世の中で最も広く使われている語句を取得することができる。
(11)前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、前記出現回数が所定の数より少ないものを間違いデータとして抽出することを特徴とする(1)から(8)のいずれかに記載のふり仮名収集利用装置。
この発明によれば、ふり仮名収集利用装置が、出現回数が所定の数より少ない語句とふり仮名との組み合わせを取得することができるので、例えば、ふり仮名の間違い例を示すことができる。
(12)コンピュータを用いて、ふり仮名に係る情報を集めるふり仮名収集利用方法であって、
インターネットを通じて、複数のWebページの内容を取得するステップと、
前記Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するステップと、
取得された前記組み合わせを出現回数とともに記録するステップと、
記録された前記組み合わせを前記出現回数に応じて抽出するステップと、
を含むことを特徴とするふり仮名収集利用方法。
この発明によれば、コンピュータを用いて、当該方法を実行することにより、(2)と同様の効果が期待できる。
この発明によれば、ふり仮名収集利用装置が、漢字で構成される語句とふり仮名との組み合わせをWebページ上から自動的に収集し、出現回数に応じて再利用するので、人手をかけて辞書等を作成する必要がなく、かつ一般に広く使われているふり仮名を再利用することができる。
また、この発明によれば、ふり仮名収集利用装置が、出現回数に応じて語句とふり仮名との組み合わせを再利用することができるので、漢字の難易度や正誤等を考慮した使用目的に合わせてふり仮名の再利用を行うことができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1の実施形態)
[全体図]
図1は、ふり仮名収集利用装置1と、ふり仮名収集利用装置1がインターネット10を通じてふり仮名データを収集するWebページ20〜24との関係を示した全体図である。ふり仮名収集利用装置1は、ふり仮名データを収集するためにWebページを取得するWebページ取得手段3と、Webページ取得手段3によって取得されたWebページからふり仮名データを取得するふり仮名データ取得手段4と、ふり仮名データ取得手段4によって取得されたふり仮名データを記録するふり仮名データ記録手段5と、ふり仮名データ記録手段5に記録されたふり仮名データを使用目的に応じて抽出するふり仮名データ抽出手段6と、これらの各手段を制御するとともに、インターネット10を通じてWebページ20〜24にアクセスするための通信制御を行う制御手段2とを備える。
なお、ふり仮名データとは、語句とふり仮名との組み合わせを意味するものであり、同一の語句に異なるふり仮名が付されたものや、異なる語句に同一のふり仮名データが付されたものは別のふり仮名データである。
[ふり仮名収集利用装置1のハードウェア構成]
図2は、本実施形態に係るふり仮名収集利用装置1のハードウェア構成を示す図である。
ふり仮名収集利用装置1は、制御装置40を構成するCPU(Central Processing Unit)41(マルチプロセッサ構成ではCPU42等複数のCPUが追加されてもよい)、バスライン30、通信I/F(I/F:インターフェイス)43、メインメモリ44、BIOS(Basic Input Output System)45、表示装置46、I/Oコントローラ47、並びにキーボード及びマウス等の入力装置48を備える。
通信I/F43は、ふり仮名収集利用装置1が、インターネット10を介してWebページ20〜24が保有されているサーバ等(図示せず)にアクセスするためのネットワーク・アダプタである。通信I/F43は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS45は、ふり仮名収集利用装置1の起動時にCPU41が実行するブートプログラムや、ふり仮名収集利用装置1のハードウェアに依存するプログラム等を記録する。
表示装置46は、ふり仮名収集利用装置1による演算処理結果等の画面を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ47には、ハードディスク49、及び半導体メモリ50等の記憶装置51を接続することができる。
入力装置48は、ふり仮名収集利用装置1の管理者による入力の受け付けを行うものである。
ハードディスク49は、ふり仮名収集利用装置1として機能するための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。
以上の例は、ふり仮名収集利用装置1のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをふり仮名収集利用装置1として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したふり仮名収集利用装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。
なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、ふり仮名収集利用装置1は、記憶装置51、制御装置40等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図1に示した、制御手段2、Webページ取得手段3、ふり仮名データ取得手段4及びふり仮名データ抽出手段6には主として制御装置40が、ふり仮名データ記録手段5には記憶装置51が、それぞれ対応する。
[テーブル]
図3は、本実施形態に係るURL更新日時テーブルを示す図である。取得したWebページのURLアドレス100とそのWebページの最終更新日時101を保有する。URL更新日時テーブルは、Webページを取得したとき、そのWebページを保有しているサーバ等からそのWebページのファイルの最終更新日時を取得して、URLアドレス100とともに記録しておくものである。こうすれば、再度同一URLのWebページにアクセスしたとき、そのWebページを保有しているサーバ上に記録された最終更新日時が、URL更新日時テーブルに記録された最終更新日時101と一致する場合は、そのWebページについては前回取得時から内容が変わっていないことがわかるので、新たなふり仮名データの取得を省略することができる。
図4は、本実施形態に係る更新予備テーブルを示す図である。更新予備テーブルは、同一のWebページ内に同じ語句とふり仮名の組み合わせが複数回出てくる場合に、出現回数を重複してカウントしないようにするために用いる作業用のテーブルである。使用方法については処理フローの説明の中で説明する。語句110とふり仮名111とから構成される。
図5は、本実施形態に係る語句ふり仮名テーブルを示す図である。語句ふり仮名テーブルは、Webページから取得した語句120とふり仮名121の組み合わせを記録しておくためのテーブルであり、出現回数122も併せて記録している。この出現回数122を見ることで、よく使われるふり仮名や、間違ったふり仮名等の判断が可能となる。
図6、図7は、使用目的に応じて、出現回数122に基づいて、語句ふり仮名テーブル(図5)から抽出した例を示している。具体的な利用方法については、後述する。
図8は、本実施形態に係る最頻ふり仮名テーブルを示す図である。最頻ふり仮名テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものをそれぞれ抽出したものである。最頻ふり仮名テーブルは、語句130、ふり仮名131及び出現回数132から構成される。
図9は、本実施形態に係る最頻語句テーブルを示す図である。最頻語句テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものをそれぞれ抽出したものである。最頻語句テーブルは、語句140、ふり仮名141及び出現回数142から構成される。
図10は、本実施形態に係る間違い語句ふり仮名テーブルを示す図である。間違い語句ふり仮名テーブルは、語句ふり仮名テーブル(図5)に登録された語句120とふり仮名121の組み合わせについて、出現回数が一定回数以下のものを抽出したものである。間違い語句ふり仮名テーブルは、語句150、ふり仮名151及び出現回数152から構成される。
[処理フロー]
図11に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1の制御装置40が行うものとする。
本実施形態では、ふり仮名収集利用装置1の制御装置40が、予め定めた複数のURLアドレスに対して、所定のルールでインターネット10を通じてアクセスし、対応するWebページ20〜24の内容を収集するクローリングといわれる処理が行われることを前提としている。
ふり仮名収集利用装置1の制御装置40は、インターネット10を通じてURLアドレスに基づきWebページ20〜24にアクセスし、当該Webページのファイルの最終更新日時を取得する(S1000)。
次に、取得したWebページのURLアドレスがURL更新日時テーブル(図3)に登録されているか否かを調べる(S1010)。もし登録されていなければ(S1010:No)、URLアドレス100と最終更新日時101をURL更新日時テーブル(図3)に登録して(S1020)、Webページの内容を取得し(S1050)、ふり仮名取得の処理(S1060以降)に移る。登録されている場合は(S1010:Yes)、取得した当該Webページのファイルの最終更新日時とURL更新日時テーブル(図3)に登録されている最終更新日時101とを比較し、両者が一致するか否かを調べる(S1030)。そして両者が一致する場合は(S1030:Yes)、そのWebページは前回取得したときと内容が変わっていないので何も処理を行わず、そのWebページの処理は終了する。一致しない場合は(S1030:No)、そのWebページは前回取得したときと内容が変わっているので、URL更新日時テーブル(図3)の最終更新日時101を更新して(S1040)、Webページの内容を取得し(S1050)、ふり仮名取得の処理(S1060以降)に移る。
次に、Webページの内容からふり仮名データを取得する(S1060)。ふり仮名データの取得には次の2つの方法で行う。1つはWebページの内容を記述するHTMLのルビタグを利用して取得する方法である。これは、HTMLの言語仕様に従い、<ruby>と</ruby>に囲まれる中にある<rb>の後にある語句と、<rt>の後にあるふり仮名とを対で取得するものである。
例えば、「<ruby><rb>七尾奈留<rt>ななをなる</ryby>」からは「語句:七尾奈留、ふり仮名:ななをなる」が取得される。また、「<ruby><rb>獣</rb><rp>(</rp><rt>けだもの</rt><rp>)</rp></ryby>」からは「語句:獣、ふり仮名:けだもの」が取得される。なお、HTML以外の言語であってもルビの機能があるものはそのルビを抽出することで同様に処理することができる。
もう1つの方法は、表示されるテキスト中にある、括弧内の文字が全部ひらがなであって、括弧の直前の文字が漢字である場合に、その漢字と括弧内のひらがなを語句とふり仮名として取得するものである。この場合、漢字が複数個連続する場合は、これらをまとめて語句として取得する。例えば、「宥和(ゆうわ)」からは「語句:宥和、ふり仮名:ゆうわ」が取得される。しかし、例えば、「土方歳三(としぞう)」からは「語句:歳三、ふり仮名:としぞう」ではなく、「語句:土方歳三、ふり仮名:としぞう」が取得される。また、「徒然日記(のようなもの)」からは「語句:徒然日記、ふり仮名:のようなもの」が取得される。このようにふり仮名としては誤ったものが取得される可能性があるが、これについては後述の処理で対処する。漢字か否かは文字コードを見ることで判断できる。なお、ひらがなではなく、括弧内の文字が全部カタカナである場合も同様である。
このようにして取得したふり仮名データは、更新予備テーブル(図4)に登録されているか否かを調べ(S1070)、登録されていない場合には(S1070:No)、更新予備テーブル(図4)に登録する(S1080)。登録されている場合には(S1070:Yes)、更新予備テーブル(図4)に登録はしない。そして、同一URLのWebページ内にまだふり仮名データがあるかどうかを調べる(S1090)。もしまだふり仮名データがあれば(S1090:Yes)、同様の仕方で、ふり仮名データを取得する(S1060)。このようにしてステップ1060からステップ1090までの処理を繰り返す。そして同一URLのWebページ内にふり仮名データがなくなれば(S1090:No)、更新予備テーブル(図4)に基づいて、語句ふり仮名テーブル(図5)に登録する(S1100〜S1140)。
次に、図12に従って、語句ふり仮名テーブル(図5)への登録について説明する。まず、更新予備テーブル(図4)に登録された語句とふり仮名の組み合わせを読み出す(S1100)。そして読み出した語句とふり仮名の組み合わせが、語句ふり仮名テーブル(図5)にすでに登録されているか否かを調べる(S1110)。もし登録があれば(S1110:Yes)、出現回数122に「1」を加算する(S1120)。もし登録がなければ(S1110:No)、その語句とふり仮名の組み合わせを語句ふり仮名テーブル(図5)に登録し、出現回数122に「1」をセットする(S1130)。この処理を更新予備テーブル(図4)に登録されたすべてのふり仮名データについて繰り返す(S1140)。
このようにすることで、多くのWebページで実際に使用されている語句とふり仮名との組み合わせが出現回数とともに自動的に収集されるので、仮にあるWebページで誤ったふり仮名が付されていても、出現回数をチェックすることで、多くの人に使われている精度の高いふり仮名を収集することができる。
また、この出現回数は、同一Webページに複数回現れた同一のふり仮名データについては1回としてカウントするので、例えば、ある人が同一のWebページ内で誤ったふり仮名データを繰り返し使用しても、最終的に語句ふり仮名テーブル(図5)に記録される出現回数は1回として取り扱われ、誤ったふり仮名が正しいふり仮名と認識される可能性が抑えられる。
[ふり仮名データの再利用]
ふり仮名121又は語句120をキーとして、語句ふり仮名テーブル(図5)を絞り込み、出現回数122の順に表示すると、Webページ上で使用されている頻度の順に当該ふり仮名121に対する語句120、又は当該語句120に対するふり仮名121が表示される。「あすか」というふり仮名121で語句ふり仮名テーブル(図5)の絞込みを行った例を図6、「明星」という語句120で語句ふり仮名テーブル(図5)の絞込みを行った例を図7に示した。こうすることにより使用目的に応じたふり仮名データを取得することができる。
例えば、通常の文章をWebページ上で表示する場合、例えば、「明星」という語句に対しては、出現回数の一番多い「みょうじょう」というふり仮名を付するようにすることができる。
また、出現回数が多いものほど、多くのWebページでふり仮名が付されて使用されていることを示しているので、一般にふり仮名を付さないと読むのが困難な語句であることが推定される。例えば、出現回数が1000回以上であればその語句は一般的に読み方が難しいものであると決めればよい。また、それほど多くはないが、一定回数以上の出現回数のものは、ふり仮名が付けられたり付けられなかったりすることがあるものと考えられる。
例えば、最頻ふり仮名テーブル(図8)の例によれば、「蒲公英」、「倫敦」には1000回以上Webページでふり仮名が付けられているので、一般的に大人であっても読みにくい語句であると考えることができる。また、「土筆」、「憂鬱」は、それぞれ800回、300回であるので、「蒲公英」、「倫敦」ほどではないにしてもやはり読みにくい語句であると一般的には考えられているとみなすことができる。したがって、Webページを作成するとき、そのWebページの想定される利用者が大人の場合は出現回数が1000回以上のふり仮名データを利用し、想定される利用者が中学生や高校生の場合は、例えば、300回以上のふり仮名データを利用する等の利用方法が考えられる。
また、最頻語句テーブル(図9)によれば、同一のふり仮名について最も出現回数の多い語句を知ることができる。
一方、「亜巣化」(あすか)については、出現回数が1回であるため、誤ったふり仮名が付されたものと推定されるので、一般的には利用されることはない。しかし、間違い語句ふり仮名テーブル(図10)のような、出現回数が一定回数以下(例えば、10回以下)のものを抽出したテーブルを作成し、例えば、「Webページで見つけた間違いふり仮名事例」というような形でWebページに表示して利用することもできる。
(第2の実施形態)
なお、第1の実施形態では、同一のWebページに同一のふり仮名データが複数回出現する場合は1回としてカウントしたが、特にこれに限定されるものではない。出現回数をそのままカウントし、語句ふり仮名テーブル(図5)の出現回数122に反映するようにしてもよい。
本実施形態では、図1〜3、図5は第1の実施形態と同様である。但し、更新予備テーブル(図4)は本実施形態では使用しない。
[処理フロー]
図13に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1を処理するコンピュータの制御装置40が行うものとする。図11及び図12と同じ処理を行う部分は同じ番号を付している。
ステップ1000〜1060は図11と同一である。本実施形態では、同一Webページに現れたふり仮名データはすべてカウントするため、更新予備テーブルへの登録は行わず、Webページから取得したふり仮名データ(S1060)はすべて語句ふり仮名テーブル(図5)に反映する。語句ふり仮名テーブル(図5)への登録処理(S1110〜S1130)は図12と同一である。しかし、語句ふり仮名テーブル(図5)への登録処理(S1110〜S1130)が終わった後、同一URLのWebページ内にまだふり仮名データがあるかどうかを調べる(S1150)。もしまだふり仮名データがあれば(S1150:Yes)、同様の仕方で、ふり仮名データを取得する(S1060)。もうふり仮名データがなければ(S1150:No)、処理を終了する。
こうすることで、同一のふり仮名データを実際に出現した回数でカウントするので、例えば、ブログのように同一のWebページに複数人が文章を記載する場合に、世の中で実際に使用されている頻度を反映した収集を行うことができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
本発明の実施形態の一例に係るふり仮名収集利用装置1と、ふり仮名収集利用装置1がインターネット10を通じてふり仮名データを収集するWebページ20〜24との関係を示した全体図である。 本発明の実施形態の一例に係るふり仮名収集利用装置1のハードウェア構成を示す図である。 本発明の実施形態の一例に係るURL更新日時テーブルを示す図である。 本発明の実施形態の一例に係る更新予備テーブルを示す図である。 本発明の実施形態の一例に係る語句ふり仮名テーブルを示す図である。 語句ふり仮名テーブル(図5)から、ふり仮名をキーとして抽出した例を示す図である。 語句ふり仮名テーブル(図5)から、語句をキーとして抽出した例を示す図である。 本発明の実施形態の一例に係る最頻ふり仮名テーブルを示す図である。 本発明の実施形態の一例に係る最頻語句テーブルを示す図である。 本発明の実施形態の一例に係る間違い語句ふり仮名テーブルを示す図である。 本発明の第1の実施形態に係るふり仮名収集利用装置1の処理のフローチャート(その1)である。 本発明の第1の実施形態に係るふり仮名収集利用装置1の処理のフローチャート(その2)である。 本発明の第2の実施形態に係るふり仮名収集利用装置1の処理のフローチャートである。
符号の説明
1 ふり仮名収集利用装置
2 制御手段
3 Webページ取得手段
4 ふり仮名データ取得手段
5 ふり仮名データ記録手段
6 ふり仮名データ抽出手段
10 インターネット
20〜24 Webページ
30 バスライン
40 制御装置
41、42 CPU(Central Processing Unit)
43 通信I/F(I/F:インターフェイス)
44 メインメモリ
45 BIOS(Basic Input Output System)
46 表示装置
47 I/Oコントローラ
48 入力装置
49 ハードディスク
50 半導体メモリ
51 記憶装置

Claims (12)

  1. Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段と、
    前記ふり仮名データ取得手段により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段と、
    前記ふり仮名データ記録手段により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段と、
    を備えるふり仮名収集利用装置。
  2. インターネットを通じて、複数のWebページの内容を取得するWebページ取得手段を備える請求項1に記載のふり仮名収集利用装置。
  3. 前記Webページ取得手段は、前記内容を取得すべきWebページの最終更新日時がすでに取得したWebページの最終更新日時と一致する場合は、該Webページの内容を取得しないことを特徴とする請求項2に記載のふり仮名収集利用装置。
  4. 前記ふり仮名データ取得手段は、前記Webページに表示されるルビから前記組み合わせを取得することを特徴とする請求項1から3のいずれかに記載のふり仮名収集利用装置。
  5. 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から4のいずれかに記載のふり仮名収集利用装置。
  6. 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から5のいずれかに記載のふり仮名収集利用装置。
  7. 前記出現回数は、前記組み合わせが取得されたWebページの数であることを特徴とする請求項1から6のいずれかに記載のふり仮名収集利用装置。
  8. 前記出現回数は、前記組み合わせが、前記Webページ取得手段により取得したWebページに実際に出現された回数であることを特徴とする請求項1から6のいずれかに記載のふり仮名収集利用装置。
  9. 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものを抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
  10. 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものを抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
  11. 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、前記出現回数が所定の数より少ないものを間違いデータとして抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
  12. コンピュータを用いて、ふり仮名に係る情報を集めるふり仮名収集利用方法であって、
    インターネットを通じて、複数のWebページの内容を取得するステップと、
    前記Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するステップと、
    取得された前記組み合わせを出現回数とともに記録するステップと、
    記録された前記組み合わせを前記出現回数に応じて抽出するステップと、
    を含むことを特徴とするふり仮名収集利用方法。
JP2007164241A 2007-06-21 2007-06-21 ふり仮名収集利用装置及びふり仮名収集利用方法 Expired - Fee Related JP5087326B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007164241A JP5087326B2 (ja) 2007-06-21 2007-06-21 ふり仮名収集利用装置及びふり仮名収集利用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007164241A JP5087326B2 (ja) 2007-06-21 2007-06-21 ふり仮名収集利用装置及びふり仮名収集利用方法

Publications (2)

Publication Number Publication Date
JP2009003717A true JP2009003717A (ja) 2009-01-08
JP5087326B2 JP5087326B2 (ja) 2012-12-05

Family

ID=40320034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007164241A Expired - Fee Related JP5087326B2 (ja) 2007-06-21 2007-06-21 ふり仮名収集利用装置及びふり仮名収集利用方法

Country Status (1)

Country Link
JP (1) JP5087326B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084524A1 (ja) * 2009-01-20 2010-07-29 Yamamoto Emi 情報処理システム及びプログラム
JP2012068899A (ja) * 2010-09-24 2012-04-05 Fujitsu Social Science Laboratory Ltd 語句並べ替え装置,方法,およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01303334A (ja) * 1987-10-05 1989-12-07 Asics Corp 緩衝部材
JPH096378A (ja) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2000250915A (ja) * 1999-02-25 2000-09-14 Shogakukan Inc 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001184355A (ja) * 1999-12-22 2001-07-06 Fujitsu Ltd 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体
JP2003085181A (ja) * 2001-09-07 2003-03-20 Japan Science & Technology Corp 事典システム
JP2006194952A (ja) * 2005-01-11 2006-07-27 Nissan Motor Co Ltd 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01303334A (ja) * 1987-10-05 1989-12-07 Asics Corp 緩衝部材
JPH096378A (ja) * 1995-06-21 1997-01-10 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2000250915A (ja) * 1999-02-25 2000-09-14 Shogakukan Inc 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001184355A (ja) * 1999-12-22 2001-07-06 Fujitsu Ltd 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体
JP2003085181A (ja) * 2001-09-07 2003-03-20 Japan Science & Technology Corp 事典システム
JP2006194952A (ja) * 2005-01-11 2006-07-27 Nissan Motor Co Ltd 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010084524A1 (ja) * 2009-01-20 2010-07-29 Yamamoto Emi 情報処理システム及びプログラム
JP2012068899A (ja) * 2010-09-24 2012-04-05 Fujitsu Social Science Laboratory Ltd 語句並べ替え装置,方法,およびプログラム

Also Published As

Publication number Publication date
JP5087326B2 (ja) 2012-12-05

Similar Documents

Publication Publication Date Title
Padró et al. Freeling 3.0: Towards wider multilinguality
EP3345118B1 (en) Identifying query patterns and associated aggregate statistics among search queries
US20050182616A1 (en) Phonetic-based text input method
US10140260B2 (en) Intelligent text reduction for graphical interface elements
US20080172219A1 (en) Foreign language translator in a document editor
JPH11203311A (ja) 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
US10503808B2 (en) Time user interface with intelligent text reduction
US20020152258A1 (en) Method and system of intelligent information processing in a network
CN104376043B (zh) 日志记录与显示方法及装置
Glass et al. A naive salience-based method for speaker identification in fiction books
US20080016488A1 (en) Output styling in an IDE console
CN113050808A (zh) 在输入框中突出显示目标文本的方法及装置
JP5087326B2 (ja) ふり仮名収集利用装置及びふり仮名収集利用方法
JP7064871B2 (ja) テキストマイニング装置およびテキストマイニング方法
CN114386407B (zh) 文本的分词方法及装置
US7383532B2 (en) System and method for client-side locale specific numeric format handling in a web environment
CN101425087A (zh) 构建词典的方法和系统
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
CN112417851A (zh) 文本纠错分词方法、系统及电子设备
JP5412137B2 (ja) 機械学習装置及び方法
JP2621999B2 (ja) 文書処理装置
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP4864811B2 (ja) エラー情報収集装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120612

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120813

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

R150 Certificate of patent or registration of utility model

Ref document number: 5087326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371