JP2012043233A - 対訳辞書生成装置、方法及びプログラム - Google Patents
対訳辞書生成装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2012043233A JP2012043233A JP2010184510A JP2010184510A JP2012043233A JP 2012043233 A JP2012043233 A JP 2012043233A JP 2010184510 A JP2010184510 A JP 2010184510A JP 2010184510 A JP2010184510 A JP 2010184510A JP 2012043233 A JP2012043233 A JP 2012043233A
- Authority
- JP
- Japan
- Prior art keywords
- page
- similar image
- search
- search keyword
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 15
- 238000013519 translation Methods 0.000 title abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 230000014616 translation Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ある言語のページ内の画像と類似する画像を含む他の言語のページを類似画像検索で抽出し、双方のページがヒットする検索キーワードをウェブ検索等のログから取得することにより、相互に似た画像を指す異なる言語の単語やフレーズが対応付けできるので、対訳辞書の自動生成が可能となる。一つの基準ページに対して所定数の前記類似画像ページ(例えば、日本語ページの画像を基に類似度1位から10位までの中国語ページを抽出するなど)を抽出して検索キーワードを取得することにより、抽出結果のばらつきを抑制して普遍性ある単語同士を対応付けできるので、高精度な対訳辞書を生成可能となる。
【選択図】図4
Description
本実施形態は、図1に示す対訳辞書生成装置1(以下「本装置1」又は「本装置」と略称する)に関するものである。また、類似画像検索サーバ2とウェブ検索サーバ3は、本装置1が通信ネットワークN(インターネット、携帯電話網、LANなど)でアクセスすることで、それらの機能を利用するものである。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部6と、外部記憶装置(HDD等)や主メモリ等の記憶装置7と、通信ネットワークNとの通信手段8(LANアダプタや通信ゲートウェイ装置など)と、を有する。
上記のように構成した本装置1が対訳辞書を生成する処理手順を図3のフローチャートに示す。また、この処理手順に対応する処理の例を図4の概念図に示す。図3の処理手順では、まず、本装置1の基準画像ページ取得手段10が、日本語によるウェブページである基準ページ(例えば図4の基準ページP1)の指定を、図示しない端末からのURL入力など任意の形で、本装置1の運営者などから受け付ける(ステップS1)。基準ページの具体例としては、日本のショッピングサイト内のページなどが考えられる。
すると、類似画像ページ抽出手段15が、上記の基準ページに含まれる画像を基準画像として、中国語によるウェブページであって基準画像に類似した類似画像を含む類似画像ページ(例えば図4の類似画像ページP2)を抽出する(ステップS2)。この際、取得した基準ページのURLに対し、類似画像ページのURLを対応付けることが考えられる。
続いて、検索キーワード取得手段20が、検索ログ記憶手段25に記憶されているウェブ検索ログに基づいて、基準ページがヒットする第一の検索キーワード(以下「基準語」と呼ぶ)と、類似画像ページがヒットする第二の検索キーワード(以下「対象語」と呼ぶ)と、を取得する(ステップS3)。例えば、図4の例では、基準語KW1である「自転車」と、対象語KW2である「自行車」(ここでは特許出願で使用可能な文字種の制限上、繁体字で表すが、実際には各図に示すように簡体字などを処理や登録の対象としたり、他の任意の言語に本発明を適用することができる)が取得されている。
その後、対訳辞書登録手段30が、取得された基準語と対象語と、を第一の言語と第二の言語の対訳辞書に登録する(ステップS4)。図4の例では、日本語である基準語「自転車」に対し、中国語である対象語「自行車」を対応付けて対訳辞書Dに登録している。
なお、類似した画像を持つ複数の基準ページについてURLの指定などを一度に受け付けてもよく(ステップS1)、この場合、与えられた複数の基準ページのそれぞれについて、類似画像ページ抽出手段15は類似画像ページの抽出(ステップS2)を行い、検索キーワード取得手段20は各検索キーワードの取得を行う(ステップS3)。また、この場合、対訳辞書登録手段30による対訳辞書への登録(ステップS4)は、検索キーワードが取得されるたびに行ってもよいし、全ての基準ページについて類似画像ページの抽出と検索キーワードの取得を行った後、まとめて行ってもよい。
以上のように、本実施形態では、ある言語のページ内の画像と類似する画像を含む他の言語のページを類似画像検索で抽出し、双方のページがヒットする検索キーワードをウェブ検索等のログから取得することにより、相互に似た画像を指す異なる言語の単語やフレーズが対応付けできるので(例えば図4)、対訳辞書の自動生成が可能となる。
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、本発明は、日本語と中国語、日本語と他の言語(韓国語、フランス語他)の対訳辞書に限らず、他の言語同士の対訳辞書にも適用可能である。
2 類似画像検索サーバ
3 ウェブ検索サーバ
6 演算制御部
7 記憶装置
8 通信手段
10 基準画像ページ取得手段
15 類似画像ページ抽出手段
20 検索キーワード取得手段
25 検索ログ記憶手段
30 対訳辞書登録手段
35 対訳辞書記憶手段
KW1 基準語
KW2 対象語
N 通信ネットワーク
P1 基準ページ
P2 類似画像ページ
Claims (7)
- 第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出手段と、
ウェブ検索ログを記憶している検索ログ記憶手段と、
前記検索ログ記憶手段に記憶されている前記ウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得手段と、
取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録手段と、
を有することを特徴とする対訳辞書生成装置。 - 前記類似画像ページ抽出手段は、前記基準ページに対して複数の前記類似画像ページを抽出し、
前記検索キーワード取得手段は、抽出された前記複数の前記類似画像ページに基づいて前記第二の検索キーワードを取得する
ことを特徴とする請求項1記載の対訳辞書生成装置。 - 与えられた複数の前記基準ページのそれぞれについて、
前記類似画像ページ抽出手段による前記類似画像ページの抽出と、
前記検索キーワード取得手段による前記検索キーワードの取得と、
を行うことを特徴とする請求項1又は2記載の対訳辞書生成装置。 - 前記検索キーワード取得手段による取得に係る前記第一の検索キーワードと前記第二の検索キーワードとの組の候補が複数ある場合、各キーワードによるウェブ検索でのヒット件数を取得しそのヒット件数が多い組を優先して前記対訳辞書に加える手段を備えたことを特徴とする請求項1から3のいずれか一項に記載の対訳辞書生成装置。
- 前記ウェブ検索ログは、検索結果に含まれたウェブページがクリックされた量に関する情報を含み、
前記類似画像ページ抽出手段は、前記類似画像ページの抽出にあたり、前記基準画像と類似画像の類似度とともに、その類似画像を含むウェブページに関する前記クリックされた量に関する情報を用いることを特徴とする請求項1から4のいずれか一項に記載の対訳辞書生成装置。 - コンピュータが、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出する類似画像ページ抽出処理と、
コンピュータが、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得する検索キーワード取得処理と、
コンピュータが、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録する対訳辞書登録処理と、
を含むことを特徴とする対訳辞書生成方法。 - コンピュータを制御することにより対訳辞書を生成する対訳辞書生成プログラムであって、
コンピュータに、第一の言語によるウェブページである基準ページに含まれる画像を基準画像として、前記第一の言語とは異なる第二の言語によるウェブページであって前記基準画像に類似した類似画像を含む類似画像ページを抽出させ、
コンピュータに、所定の検索ログ記憶手段に記憶されているウェブ検索ログに基づいて、前記基準ページがヒットする第一の検索キーワードと、前記類似画像ページがヒットする第二の検索キーワードと、を取得させ、
コンピュータに、取得された前記第一の検索キーワードと、前記第二の検索キーワードと、を前記第一の言語と前記第二の言語の対訳辞書に登録させる
ことを特徴とする対訳辞書生成方法プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184510A JP5153839B2 (ja) | 2010-08-20 | 2010-08-20 | 対訳辞書生成装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010184510A JP5153839B2 (ja) | 2010-08-20 | 2010-08-20 | 対訳辞書生成装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043233A true JP2012043233A (ja) | 2012-03-01 |
JP5153839B2 JP5153839B2 (ja) | 2013-02-27 |
Family
ID=45899446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010184510A Active JP5153839B2 (ja) | 2010-08-20 | 2010-08-20 | 対訳辞書生成装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5153839B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012133689A (ja) * | 2010-12-24 | 2012-07-12 | Yahoo Japan Corp | 情報処理装置、方法及びプログラム |
JP2014026528A (ja) * | 2012-07-27 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 有効クリック数算出装置、方法、及びプログラム |
JP2016173618A (ja) * | 2015-03-16 | 2016-09-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714055B (zh) * | 2013-12-30 | 2017-03-15 | 北京百度网讯科技有限公司 | 从图片中自动提取双语词典的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312383A (ja) * | 1997-03-11 | 1998-11-24 | Toshiba Corp | 翻訳システム、翻訳処理方法および翻訳処理用記録媒体 |
-
2010
- 2010-08-20 JP JP2010184510A patent/JP5153839B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312383A (ja) * | 1997-03-11 | 1998-11-24 | Toshiba Corp | 翻訳システム、翻訳処理方法および翻訳処理用記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012133689A (ja) * | 2010-12-24 | 2012-07-12 | Yahoo Japan Corp | 情報処理装置、方法及びプログラム |
JP2014026528A (ja) * | 2012-07-27 | 2014-02-06 | Nippon Telegr & Teleph Corp <Ntt> | 有効クリック数算出装置、方法、及びプログラム |
JP2016173618A (ja) * | 2015-03-16 | 2016-09-29 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5153839B2 (ja) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI124000B (fi) | Menetelmä ja järjestely tiedonhakutulosten käsittelemiseksi | |
JP5264892B2 (ja) | 多言語情報検索 | |
US8898583B2 (en) | Systems and methods for providing information regarding semantic entities included in a page of content | |
US8494839B2 (en) | Apparatus, method, and recording medium for morphological analysis and registering a new compound word | |
US20050097080A1 (en) | System and method for automatically locating searched text in an image file | |
CN107870915B (zh) | 对搜索结果的指示 | |
US8290928B1 (en) | Generating sitemap where last modified time is not available to a network crawler | |
JP4200834B2 (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
JP2009037501A (ja) | 情報検索装置、情報検索方法およびプログラム | |
EP3441887B1 (en) | Translation system | |
JP5153839B2 (ja) | 対訳辞書生成装置、方法及びプログラム | |
US10303747B2 (en) | Method, apparatus and system for controlling address input | |
JP6908644B2 (ja) | 文書検索装置及び文書検索方法 | |
CN113656737B (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP5351879B2 (ja) | 情報処理装置、方法及びプログラム | |
JP2003296327A (ja) | 翻訳サーバ、ジャンル別オンライン機械翻訳方法、およびそのプログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
KR19990078876A (ko) | 일괄된 자원 위치기 입력을 통한 정보 검색 방법 | |
JP5063568B2 (ja) | 携帯端末向けのウェブページの検索に用いられるインデックスを作成する検索制御装置及びインデックス作成方法 | |
WO2022244217A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP5469477B2 (ja) | 検索最適化方法、プログラム及び装置 | |
JP5652299B2 (ja) | 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム | |
JP2018206189A (ja) | 情報収集装置、および、情報収集方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5153839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |