JP2009003717A - ふり仮名収集利用装置及びふり仮名収集利用方法 - Google Patents
ふり仮名収集利用装置及びふり仮名収集利用方法 Download PDFInfo
- Publication number
- JP2009003717A JP2009003717A JP2007164241A JP2007164241A JP2009003717A JP 2009003717 A JP2009003717 A JP 2009003717A JP 2007164241 A JP2007164241 A JP 2007164241A JP 2007164241 A JP2007164241 A JP 2007164241A JP 2009003717 A JP2009003717 A JP 2009003717A
- Authority
- JP
- Japan
- Prior art keywords
- kana
- pretend
- web page
- collection
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013075 data extraction Methods 0.000 claims abstract description 5
- 240000000220 Panda oleosa Species 0.000 claims description 177
- 235000016496 Panda oleosa Nutrition 0.000 claims description 177
- 239000010979 ruby Substances 0.000 claims description 11
- 229910001750 ruby Inorganic materials 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】ふり仮名収集利用装置1は、Webページ20〜24の内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段4と、前記ふり仮名データ取得手段4により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段5と、前記ふり仮名データ記録手段5により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段6と、を備える。
【選択図】図1
Description
本発明は、具体的には次のようなものを提供する。
前記ふり仮名データ取得手段により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段と、
前記ふり仮名データ記録手段により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段と、
を備えるふり仮名収集利用装置。
インターネットを通じて、複数のWebページの内容を取得するステップと、
前記Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するステップと、
取得された前記組み合わせを出現回数とともに記録するステップと、
記録された前記組み合わせを前記出現回数に応じて抽出するステップと、
を含むことを特徴とするふり仮名収集利用方法。
また、この発明によれば、ふり仮名収集利用装置が、出現回数に応じて語句とふり仮名との組み合わせを再利用することができるので、漢字の難易度や正誤等を考慮した使用目的に合わせてふり仮名の再利用を行うことができる。
(第1の実施形態)
図1は、ふり仮名収集利用装置1と、ふり仮名収集利用装置1がインターネット10を通じてふり仮名データを収集するWebページ20〜24との関係を示した全体図である。ふり仮名収集利用装置1は、ふり仮名データを収集するためにWebページを取得するWebページ取得手段3と、Webページ取得手段3によって取得されたWebページからふり仮名データを取得するふり仮名データ取得手段4と、ふり仮名データ取得手段4によって取得されたふり仮名データを記録するふり仮名データ記録手段5と、ふり仮名データ記録手段5に記録されたふり仮名データを使用目的に応じて抽出するふり仮名データ抽出手段6と、これらの各手段を制御するとともに、インターネット10を通じてWebページ20〜24にアクセスするための通信制御を行う制御手段2とを備える。
なお、ふり仮名データとは、語句とふり仮名との組み合わせを意味するものであり、同一の語句に異なるふり仮名が付されたものや、異なる語句に同一のふり仮名データが付されたものは別のふり仮名データである。
図2は、本実施形態に係るふり仮名収集利用装置1のハードウェア構成を示す図である。
ふり仮名収集利用装置1は、制御装置40を構成するCPU(Central Processing Unit)41(マルチプロセッサ構成ではCPU42等複数のCPUが追加されてもよい)、バスライン30、通信I/F(I/F:インターフェイス)43、メインメモリ44、BIOS(Basic Input Output System)45、表示装置46、I/Oコントローラ47、並びにキーボード及びマウス等の入力装置48を備える。
BIOS45は、ふり仮名収集利用装置1の起動時にCPU41が実行するブートプログラムや、ふり仮名収集利用装置1のハードウェアに依存するプログラム等を記録する。
I/Oコントローラ47には、ハードディスク49、及び半導体メモリ50等の記憶装置51を接続することができる。
入力装置48は、ふり仮名収集利用装置1の管理者による入力の受け付けを行うものである。
ハードディスク49は、ふり仮名収集利用装置1として機能するための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。
図3は、本実施形態に係るURL更新日時テーブルを示す図である。取得したWebページのURLアドレス100とそのWebページの最終更新日時101を保有する。URL更新日時テーブルは、Webページを取得したとき、そのWebページを保有しているサーバ等からそのWebページのファイルの最終更新日時を取得して、URLアドレス100とともに記録しておくものである。こうすれば、再度同一URLのWebページにアクセスしたとき、そのWebページを保有しているサーバ上に記録された最終更新日時が、URL更新日時テーブルに記録された最終更新日時101と一致する場合は、そのWebページについては前回取得時から内容が変わっていないことがわかるので、新たなふり仮名データの取得を省略することができる。
図11に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1の制御装置40が行うものとする。
本実施形態では、ふり仮名収集利用装置1の制御装置40が、予め定めた複数のURLアドレスに対して、所定のルールでインターネット10を通じてアクセスし、対応するWebページ20〜24の内容を収集するクローリングといわれる処理が行われることを前提としている。
ふり仮名収集利用装置1の制御装置40は、インターネット10を通じてURLアドレスに基づきWebページ20〜24にアクセスし、当該Webページのファイルの最終更新日時を取得する(S1000)。
また、この出現回数は、同一Webページに複数回現れた同一のふり仮名データについては1回としてカウントするので、例えば、ある人が同一のWebページ内で誤ったふり仮名データを繰り返し使用しても、最終的に語句ふり仮名テーブル(図5)に記録される出現回数は1回として取り扱われ、誤ったふり仮名が正しいふり仮名と認識される可能性が抑えられる。
ふり仮名121又は語句120をキーとして、語句ふり仮名テーブル(図5)を絞り込み、出現回数122の順に表示すると、Webページ上で使用されている頻度の順に当該ふり仮名121に対する語句120、又は当該語句120に対するふり仮名121が表示される。「あすか」というふり仮名121で語句ふり仮名テーブル(図5)の絞込みを行った例を図6、「明星」という語句120で語句ふり仮名テーブル(図5)の絞込みを行った例を図7に示した。こうすることにより使用目的に応じたふり仮名データを取得することができる。
一方、「亜巣化」(あすか)については、出現回数が1回であるため、誤ったふり仮名が付されたものと推定されるので、一般的には利用されることはない。しかし、間違い語句ふり仮名テーブル(図10)のような、出現回数が一定回数以下(例えば、10回以下)のものを抽出したテーブルを作成し、例えば、「Webページで見つけた間違いふり仮名事例」というような形でWebページに表示して利用することもできる。
なお、第1の実施形態では、同一のWebページに同一のふり仮名データが複数回出現する場合は1回としてカウントしたが、特にこれに限定されるものではない。出現回数をそのままカウントし、語句ふり仮名テーブル(図5)の出現回数122に反映するようにしてもよい。
図13に従って、ふり仮名収集利用装置1の処理フローについて説明する。特に断らない限り、以下の処理は、ふり仮名収集利用装置1を処理するコンピュータの制御装置40が行うものとする。図11及び図12と同じ処理を行う部分は同じ番号を付している。
こうすることで、同一のふり仮名データを実際に出現した回数でカウントするので、例えば、ブログのように同一のWebページに複数人が文章を記載する場合に、世の中で実際に使用されている頻度を反映した収集を行うことができる。
2 制御手段
3 Webページ取得手段
4 ふり仮名データ取得手段
5 ふり仮名データ記録手段
6 ふり仮名データ抽出手段
10 インターネット
20〜24 Webページ
30 バスライン
40 制御装置
41、42 CPU(Central Processing Unit)
43 通信I/F(I/F:インターフェイス)
44 メインメモリ
45 BIOS(Basic Input Output System)
46 表示装置
47 I/Oコントローラ
48 入力装置
49 ハードディスク
50 半導体メモリ
51 記憶装置
Claims (12)
- Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するふり仮名データ取得手段と、
前記ふり仮名データ取得手段により取得された前記組み合わせを出現回数とともに記録するふり仮名データ記録手段と、
前記ふり仮名データ記録手段により記録された前記組み合わせを前記出現回数に基づいて抽出するふり仮名データ抽出手段と、
を備えるふり仮名収集利用装置。 - インターネットを通じて、複数のWebページの内容を取得するWebページ取得手段を備える請求項1に記載のふり仮名収集利用装置。
- 前記Webページ取得手段は、前記内容を取得すべきWebページの最終更新日時がすでに取得したWebページの最終更新日時と一致する場合は、該Webページの内容を取得しないことを特徴とする請求項2に記載のふり仮名収集利用装置。
- 前記ふり仮名データ取得手段は、前記Webページに表示されるルビから前記組み合わせを取得することを特徴とする請求項1から3のいずれかに記載のふり仮名収集利用装置。
- 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてひらがなであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から4のいずれかに記載のふり仮名収集利用装置。
- 前記ふり仮名データ取得手段は、前記Webページに表示される文字列中にある括弧内の文字がすべてカタカナであり、括弧直前の文字が漢字である場合に、括弧内の文字が括弧直前の1又は2以上の連続する漢字の語句のふり仮名とみなして前記組み合わせを取得することを特徴とする請求項1から5のいずれかに記載のふり仮名収集利用装置。
- 前記出現回数は、前記組み合わせが取得されたWebページの数であることを特徴とする請求項1から6のいずれかに記載のふり仮名収集利用装置。
- 前記出現回数は、前記組み合わせが、前記Webページ取得手段により取得したWebページに実際に出現された回数であることを特徴とする請求項1から6のいずれかに記載のふり仮名収集利用装置。
- 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一の語句に対するふり仮名の中で前記出現回数が最も多いものを抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
- 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、同一のふり仮名に対する語句の中で前記出現回数が最も多いものを抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
- 前記ふり仮名データ抽出手段は、前記ふり仮名データ記録手段により記録された前記組み合わせについて、前記出現回数が所定の数より少ないものを間違いデータとして抽出することを特徴とする請求項1から8のいずれかに記載のふり仮名収集利用装置。
- コンピュータを用いて、ふり仮名に係る情報を集めるふり仮名収集利用方法であって、
インターネットを通じて、複数のWebページの内容を取得するステップと、
前記Webページの内容から、漢字で構成される語句とふり仮名との組み合わせを取得するステップと、
取得された前記組み合わせを出現回数とともに記録するステップと、
記録された前記組み合わせを前記出現回数に応じて抽出するステップと、
を含むことを特徴とするふり仮名収集利用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007164241A JP5087326B2 (ja) | 2007-06-21 | 2007-06-21 | ふり仮名収集利用装置及びふり仮名収集利用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007164241A JP5087326B2 (ja) | 2007-06-21 | 2007-06-21 | ふり仮名収集利用装置及びふり仮名収集利用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009003717A true JP2009003717A (ja) | 2009-01-08 |
JP5087326B2 JP5087326B2 (ja) | 2012-12-05 |
Family
ID=40320034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007164241A Expired - Fee Related JP5087326B2 (ja) | 2007-06-21 | 2007-06-21 | ふり仮名収集利用装置及びふり仮名収集利用方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5087326B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010084524A1 (ja) * | 2009-01-20 | 2010-07-29 | Yamamoto Emi | 情報処理システム及びプログラム |
JP2012068899A (ja) * | 2010-09-24 | 2012-04-05 | Fujitsu Social Science Laboratory Ltd | 語句並べ替え装置,方法,およびプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01303334A (ja) * | 1987-10-05 | 1989-12-07 | Asics Corp | 緩衝部材 |
JPH096378A (ja) * | 1995-06-21 | 1997-01-10 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
JP2000250915A (ja) * | 1999-02-25 | 2000-09-14 | Shogakukan Inc | 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001184355A (ja) * | 1999-12-22 | 2001-07-06 | Fujitsu Ltd | 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体 |
JP2003085181A (ja) * | 2001-09-07 | 2003-03-20 | Japan Science & Technology Corp | 事典システム |
JP2006194952A (ja) * | 2005-01-11 | 2006-07-27 | Nissan Motor Co Ltd | 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置 |
-
2007
- 2007-06-21 JP JP2007164241A patent/JP5087326B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01303334A (ja) * | 1987-10-05 | 1989-12-07 | Asics Corp | 緩衝部材 |
JPH096378A (ja) * | 1995-06-21 | 1997-01-10 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
JP2000250915A (ja) * | 1999-02-25 | 2000-09-14 | Shogakukan Inc | 新語候補収集システム、新語候補収集方法、及び、そのためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2001184355A (ja) * | 1999-12-22 | 2001-07-06 | Fujitsu Ltd | 情報収集システム、コンテンツサーバ、情報収集装置及び記録媒体 |
JP2003085181A (ja) * | 2001-09-07 | 2003-03-20 | Japan Science & Technology Corp | 事典システム |
JP2006194952A (ja) * | 2005-01-11 | 2006-07-27 | Nissan Motor Co Ltd | 音声合成用の文章解析辞書の登録方法およびこれを用いた音声読み上げ装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010084524A1 (ja) * | 2009-01-20 | 2010-07-29 | Yamamoto Emi | 情報処理システム及びプログラム |
JP2012068899A (ja) * | 2010-09-24 | 2012-04-05 | Fujitsu Social Science Laboratory Ltd | 語句並べ替え装置,方法,およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5087326B2 (ja) | 2012-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Padró et al. | Freeling 3.0: Towards wider multilinguality | |
EP3345118B1 (en) | Identifying query patterns and associated aggregate statistics among search queries | |
US20050182616A1 (en) | Phonetic-based text input method | |
US10140260B2 (en) | Intelligent text reduction for graphical interface elements | |
US20080172219A1 (en) | Foreign language translator in a document editor | |
JPH11203311A (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
US10503808B2 (en) | Time user interface with intelligent text reduction | |
US20020152258A1 (en) | Method and system of intelligent information processing in a network | |
CN104376043B (zh) | 日志记录与显示方法及装置 | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
US20080016488A1 (en) | Output styling in an IDE console | |
CN113050808A (zh) | 在输入框中突出显示目标文本的方法及装置 | |
JP5087326B2 (ja) | ふり仮名収集利用装置及びふり仮名収集利用方法 | |
JP7064871B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
CN114386407B (zh) | 文本的分词方法及装置 | |
US7383532B2 (en) | System and method for client-side locale specific numeric format handling in a web environment | |
CN101425087A (zh) | 构建词典的方法和系统 | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
CN112417851A (zh) | 文本纠错分词方法、系统及电子设备 | |
JP5412137B2 (ja) | 機械学習装置及び方法 | |
JP2621999B2 (ja) | 文書処理装置 | |
JP7223450B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
JP4864811B2 (ja) | エラー情報収集装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110826 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111104 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120711 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120813 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120910 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5087326 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |