JP7128229B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7128229B2
JP7128229B2 JP2020085461A JP2020085461A JP7128229B2 JP 7128229 B2 JP7128229 B2 JP 7128229B2 JP 2020085461 A JP2020085461 A JP 2020085461A JP 2020085461 A JP2020085461 A JP 2020085461A JP 7128229 B2 JP7128229 B2 JP 7128229B2
Authority
JP
Japan
Prior art keywords
shaping
information processing
search query
result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020085461A
Other languages
English (en)
Other versions
JP2021179860A (ja
Inventor
伸裕 鍜治
学 颯々野
峻平 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020085461A priority Critical patent/JP7128229B2/ja
Publication of JP2021179860A publication Critical patent/JP2021179860A/ja
Application granted granted Critical
Publication of JP7128229B2 publication Critical patent/JP7128229B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
従来、変換対象文字列の変換の候補を容易に選択する技術が知られている(特許文献1参照)。
特開2018-185715号公報
しかしながら、従来の技術では、ユーザの誤入力や変換ミスに基づく不自然な検索クエリを正しい内容に書き換える際に、単漢字の読みに基づく書き換え規則が原因で誤った漢字に変換されることを防ぐためには、モデルを精緻化するなど複雑な工程が必要であった。
本願は、上記に鑑みてなされたものであって、不自然な検索クエリの生成を抑制するための、開発者によって直観的で簡便な手段を提供することを目的とする。
本願に係る情報処理装置は、ユーザが入力した検索クエリを取得する取得部と、前記取得部により取得された前記検索クエリを所定の整形条件に従って整形する整形処理部と、不適切な整形結果を検出するための所定のリストを用いて、前記整形処理部により整形された前記検索クエリの整形結果のうち、不適切な整形結果を検出する検出部と、前記検出部により検出された前記不適切な整形結果を棄却する棄却部と、を有することを特徴とする。
実施形態の一態様によれば、不自然な検索クエリの生成を抑制することができる。
図1は、実施形態に係る情報処理システムの一例を示す図である。 図2は、実施形態に係る整形処理の一例を示す図である。 図3は、実施形態に係る端末装置の構成例を示す図である。 図4は、実施形態に係る整形処理装置の構成例を示す図である。 図5は、実施形態に係る整形処理の流れの一例を示すフローチャートである。 図6は、ハードウェア構成の一例を示す図である。
以下に、本願に係る情報処理装置、情報処理方法及びプログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及びプログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1.情報処理システムの構成〕
まず、図1を用いて、情報処理装置の一例である端末装置100若しくは整形処理装置10を有する情報処理システム1の構成について説明する。図1は、実施形態に係る情報処理システム1の一例を示す図である。図1に示すように、情報処理システム1は、整形処理装置10、端末装置100、及び検索サーバ200を有する。なお、情報処理システム1は、複数の端末装置100を有する。また、整形処理装置10と、検索サーバ200とは、同一のサーバ装置やクラウドシステム等により実現されてもよい。ここで、整形処理装置10、端末装置100、及び検索サーバ200は、ネットワークN(例えば、図4参照)を介して有線又は無線により通信可能に接続される。
整形処理装置10は、ユーザが端末装置100に入力した検索クエリを受信し、端末装置100から受信した検索クエリの誤変換や誤字脱字の整形処理を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
端末装置100は、スマートフォンやタブレット等のスマートデバイスであり、3G(Generation)やLTE(Long Term Evolution)等の無線通信網を介して任意のサーバ装置と通信を行うことができる携帯端末装置である。図1の例では、端末装置100は、ユーザの一例であるユーザUによって利用される。また、端末装置100は、液晶ディスプレイ等の画面であって、タッチパネルの機能を有する画面を有し、ユーザから指やスタイラス等によりタップ操作、スライド操作、スクロール操作等、コンテンツ等の表示データに対する各種の操作を受付ける。なお、以下の説明では、画面のうち、コンテンツが表示されている領域上で行われた操作を、コンテンツに対する操作と記載する場合がある。なお、端末装置100は、スマートデバイスのみならず、デスクトップPC(Personal Computer)やノートPC等の情報処理装置であってもよい。
検索サーバ200は、検索エンジンとして、ユーザが入力した検索クエリ(キーワード等)に応じてネットワーク上での検索を行う情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。例えば、検索サーバ200は、ネットワークを介して、ユーザが入力した検索クエリに応じたWebサイトやSNS(Social Networking Service)サイト、電子商取引サイト、オークションサイト等を検出する。あるいは、これらのサイトにおいて、ユーザが入力した検索クエリに応じたページや投稿、商品等を検出する。また、検索サーバ200は、ユーザが入力した検索クエリに応じたファイルやアプリケーションプログラム(アプリ)等を検出してもよい。
本実施形態では、検索サーバ200は、整形処理装置10が整形処理を行った後の検索クエリを受信し、整形処理後の検索クエリに応じてネットワーク上での検索を行う。なお、実際には、検索サーバ200は、ユーザが端末装置100に入力した検索クエリを直接受信し、端末装置100から受信した検索クエリを整形処理装置10に転送し、整形処理装置10に検索クエリの整形処理を要求し、整形処理装置10から応答として整形処理後の検索クエリを受信してもよい。
〔2.情報処理システムが実行する処理について〕
情報処理システム1では、整形処理装置10及び端末装置100が、以下の提供処理を実行する。以下の説明では、整形処理装置10が実行する処理により、提案データがユーザに提供される処理の一例について説明するが、以下に説明する提供処理は、一部若しくは全てを端末装置100が実現してもよい。
例えば、整形処理装置10は、ユーザが端末装置100に入力した検索クエリ(キーワード等)を端末装置100から受信する(ステップS1)。なお、実際には、整形処理装置10は、検索サーバ200から、ユーザが入力した検索クエリを受信してもよい。
つづいて、整形処理装置10は、検索クエリの誤変換や誤字脱字の整形処理を行う(ステップS2)。このとき、整形処理装置10は、書き換え規則(整形規則)に従って書き換え候補(整形候補)を生成して、モデルのスコアが最大のものを選ぶ。すなわち、モデルのスコアが最大の書き換え候補を書き換え結果(整形結果)として選択する。
図1の例では、書き換え前の「クアパークツだ」という検索クエリに対し、書き換え規則に従って書き換え候補を生成して、モデルのスコアが最大である「クアパーク津田」を書き換え後の検索クエリ(整形処理後の検索クエリ)とする。
具体的には、整形処理装置10は、書き換え規則に従って、仮名「あ→ア」、ローマ字「a→ア」、漢字の読み「阿→ア」、同音の漢字「武→部」、英語の読み「hotel→ホテル」、濁点の有無「カ→ガ」、大文字小文字「ァ→ア」、長音化に伴う表記揺れ「コウ→コー」等の書き換えを行って種類毎に整形し、書き換え候補を生成する。
モデルは、例えばSeq2Seq(sequence to sequence)モデルである。Seq2Seqモデルは、RNN(Recurrent Neural Network)系のニューラルネットワークを使った文の生成モデルである。RNNは、LSTM(Long short-term memory)等であってもよい。Seq2Seqモデルは、元々翻訳のために提案されたニューラルネットワークのモデルであり、スペル訂正も翻訳の一種なのでスペラーの実現にも使用できる。
なお、Seq2Seqモデルの代わりに、言語モデルを採用することも可能である。言語モデルとは、テキスト(検索クエリ)の自然さを数値化するモデルである。原理的には、検索履歴(ログ)の中から、検索クエリごとのリクエスト数をカウントし、リクエスト数に応じて自然さを数値化したものである。例えば、Nグラム(N-gram)モデルを採用する。
そして、整形処理装置10は、整形処理後の検索クエリを検索サーバ200に送信する(ステップS3)。
〔2-1.整形処理の一例について〕
以下、図2を用いて、整形処理の具体例について説明する。図2は、実施形態に係る成形処理の一例を示す図である。
整形処理装置10は、検索クエリの誤変換や誤字脱字の整形処理(図1のステップS2)において、漢字列の読みのホワイトリストを用いて、不適切な書き換え結果を検出する(ステップS21)。具体的には、整形処理装置10は、整形処理後の書き換え結果が適切であるか否かを判定し、適切ではないと判定した場合、整形処理後の書き換え結果を不適切な書き換え結果として検出する。
例えば、単漢字の読みに基づく書き換え規則が原因で、「ホテルタイコ」が「ホテル平戸」に書き換えられる問題が発生したとする。これは、「平」の読みの1つが「タイ」であり、「戸」の読みの1つが「コ」であることから、「ホテルタイコ」の「タイ」を「平」、「コ」を「戸」に誤変換したことが原因である。
ここで、漢字列の読みのホワイトリストには、「平戸」の読みとして「ヒラト」が登録されているが、「タイコ」は登録されていない。すなわち、「平戸」は「ヒラト」と読み、「タイコ」とは読まないことを示している。そのため、結論として、「タイコ」は「平戸」に書き換えられないことがわかる。
これにより、整形処理装置10は、「ホテルタイコ」の書き換え結果として示された「ホテル平戸」を、不適切な書き換え結果として検出する。
そして、整形処理装置10は、検出した不適切な書き換え結果を棄却する(ステップS22)。ここでは、整形処理装置10は、漢字列の読みのホワイトリストに基づいて、「ホテルタイコ」の書き換え結果として得られた「ホテル平戸」を棄却して、次点の書き換え候補を選択して新たな書き換え結果とする。そして、整形処理装置10は、漢字列の読みのホワイトリストを用いて、新たな書き換え結果が不適切な書き換え結果か否かを判定する(ステップS21に戻る)。整形処理装置10は、新たな書き換え結果が不適切な書き換え結果でなければ、正式な書き換え結果として決定する。もし、次点の書き換え候補が存在しない場合、すなわち不適切な書き換え結果しかなかった場合には、整形処理を行う前の検索クエリ(元の検索クエリ)をそのまま使用する。
〔2-2.整形処理の他例について〕
また、整形処理装置10は、棄却された不適切な書き換え結果に基づいて、漢字列の読みのブラックリストを生成してもよい。例えば、「ホテルタイコ」の書き換え結果として得られた「ホテル平戸」を棄却した場合、「平戸」の読みとして「タイコ」をブラックリストに登録してもよい。そして、上記とは反対に、漢字列の読みのホワイトリストではなく、漢字列の読みのブラックリストを用いて、不適切な書き換え結果を検出することも可能である。
このとき、整形処理装置10は、検索クエリの誤変換や誤字脱字の整形処理において、漢字列の読みのブラックリストを用いて、不適切な書き換え結果を検出する。具体的には、整形処理装置10は、整形処理後の書き換え結果が適切であるか否かを判定し、適切ではないと判定した場合、整形処理後の書き換え結果を不適切な書き換え結果として検出する。
例えば、漢字列の読みのブラックリストには、「平戸」の読みとして「タイコ」が登録される。すなわち、「タイコ」が「平戸」に書き換えられるのは不適切な書き換え結果であることになる。
これにより、整形処理装置10は、「ホテルタイコ」の書き換え結果として示された「ホテル平戸」を、不適切な書き換え結果として検出する。
そして、整形処理装置10は、検出した不適切な書き換え結果を棄却する。例えば、整形処理装置10は、漢字列の読みのブラックリストに基づいて、「ホテルタイコ」の書き換え結果として得られた「ホテル平戸」を棄却する。
なお、漢字列の読みは一例に過ぎない。ホワイトリスト及びブラックリストは、漢字列の読みに限らず、誤変換や誤字脱字の発生しやすい固有名詞の正式名称/略称、慣用句、決まり文句、言い回し、ことわざ、熟語、英単語のスペル、文法、単複同形名詞、動詞活用変化等を登録していてもよい。また、これらのカテゴリ毎に作成されてもよい。
これにより、整形処理装置10は、検索クエリの誤変換や誤字脱字の整形処理の精度を向上させることができる。
〔3.端末装置の構成〕
次に、図3を用いて、実施形態に係る端末装置100の構成について説明する。図3は、実施形態に係る端末装置100の構成例を示す図である。図3に示すように、端末装置100は、通信部110と、入力部120と、出力部130と、物理センサ140と、制御部150とを有する。
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線又は無線で接続され、整形処理装置10との間で情報の送受信を行う。
入力部120は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部120は、キーボードやマウスや操作キー等によって実現される。また、入力部120は、マイク等の音声入力装置であってもよい。これにより、例えば、音声認識により、音声データに含まれる文字をテキストデータに変換することができる。
出力部130は、各種情報を表示するための表示装置であり、すなわち、画面である。例えば、出力部130は、液晶ディスプレイ等によって実現される。なお、端末装置100にタッチパネルが採用される場合には、入力部120と出力部130とは一体化される。また、以下の説明では、出力部130を画面と記載する場合がある。
物理センサ140は、端末装置100の各種の物理的な情報を検出するセンサであり、例えば、ジャイロセンサ、加速度センサ、気圧センサ、温度センサ、音量センサ、明度センサ等である。なお、物理センサ140は、GPS(Global Positioning System)等の測位システムを用いて、端末装置100の現在位置を推定するセンサであってもよい。また、端末装置100は、上記の加速度センサやジャイロセンサ、気圧センサ等を利用した歩行者自律航法(PDR:Pedestrian Dead-Reckoning)等の技術を用いて端末装置100の位置を測位することが可能である。
また、物理センサ140は、画像センサを含む。画像センサは、例えば、CCD(Charge-Coupled Device)イメージセンサや、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等である。すなわち、物理センサ140は、端末装置100のカメラ機能としての役割も果たす。これにより、例えば、画像認識により、画像データに含まれる文字をテキストデータに変換することができる。
制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、整形処理装置10内部の記憶装置に記憶されている各種プログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。例えば、この各種プログラムは、ウェブブラウザと呼ばれるアプリケーションプログラムに該当する。また、制御部150は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部150は、要求部151と、操作制御部152と、表示処理部153とを有し、以下に説明する情報処理の機能や作用を実現又は実行する。なお、制御部150の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部150が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
要求部151は、操作制御部152から検索クエリに関する入力データを受信した場合は、整形処理装置10に対して、検索クエリを送信する。
また、要求部151は、操作制御部152から検索クエリを受信した場合は、整形処理装置10に対して、検索クエリの整形処理要求を送信する。このとき、要求部151は、整形処理装置10に対して、検索サーバ200への整形処理後の検索クエリ送信要求を送信してもよい。もしくは、要求部151は、検索サーバ200に対して、整形処理装置10から受信した整形処理後の検索クエリを送信する。
操作制御部152は、入力部120を介して受け付けたユーザの操作にしたがって、各種制御を実行する。例えば、操作制御部152は、ユーザが入力部120に対して各種選択操作を行った場合は、選択操作内容を表示処理部153に出力する。また、操作制御部152は、入力部120を介して受け付けたスクロール操作やタップ操作等、ユーザの操作の内容を表示処理部153に出力する。
表示処理部153は、受信した各種データを出力部130に表示する。例えば、表示処理部153は、検索クエリやコンテンツに関するデータを表示する処理を実行する。表示処理部153は、例えば、CPUやMPU等によって、RAMを作業領域として実行されることにより実現される。
〔4.整形処理装置の構成〕
次に、図4を用いて、実施形態に係る整形処理装置10の機能構成の一例について説明する。図4は、実施形態に係る整形処理装置10の構成例を示す図である。図4に示すように、整形処理装置10は、通信部20と、記憶部30と、制御部40とを有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線又は無線で接続され、端末装置100、及び検索サーバ200との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置によって実現される。また、記憶部30は、検索履歴データベース31と、書き換え規則データベース32と、モデルデータベース33と、ホワイトリストデータベース34と、ブラックリストデータベース35を有する。
検索履歴データベース31は、検索履歴(ログ)を記憶する。例えば、検索履歴データベース31は、端末装置100から受信した検索クエリと、その検索結果の中からユーザが選択したサイトのアドレス等を記憶する。
書き換え規則データベース32は、書き換え規則を記憶する。書き換え規則とは、例えば、仮名「あ→ア」、ローマ字「a→ア」、漢字の読み「阿→ア」、同音の漢字「武→部」、英語の読み「hotel→ホテル」、濁点の有無「カ→ガ」、大文字小文字「ァ→ア」、長音化に伴う表記揺れ「コウ→コー」等の書き換えを定義したものである。
モデルデータベース33は、モデルを記憶する。モデルは、例えばSeq2Seq(sequence to sequence)モデルである。Seq2Seqモデルは、RNN(Recurrent Neural Network)系のニューラルネットワークを使った文の生成モデルである。RNNは、LSTM(Long short-term memory)等であってもよい。
なお、Seq2Seqモデルの代わりに、言語モデルを採用することも可能である。言語モデルとは、テキスト(検索クエリ)の自然さを数値化するモデルである。原理的には、検索履歴(ログ)の中から、検索クエリごとのリクエスト数をカウントし、リクエスト数に応じて自然さを数値化したものである。例えば、Nグラム(N-gram)モデルを採用する。
モデルの学習手法は、例えばディープニューラルネットワーク(DNN:Deep Neural Network)を利用したディープラーニング(深層学習)等である。また、データマイニングやその他の機械学習アルゴリズムを利用してもよい。整形処理装置10は、上述した各種の学習手法により、モデルの学習を行う。
ホワイトリストデータベース34は、ホワイトリストを記憶する。ホワイトリストとは、例えば、正しい漢字列の読みを登録したリストである。
ブラックリストデータベース35は、ブラックリストを記憶する。ブラックリストとは、例えば、誤った漢字列の読みを登録したリストである。
なお、漢字列の読みは一例に過ぎない。ホワイトリスト及びブラックリストは、漢字列の読みに限らず、誤変換や誤字脱字の発生しやすい固有名詞の正式名称/略称、慣用句、決まり文句、言い回し、ことわざ、熟語、英単語のスペル、文法、単複同形名詞、動詞活用変化等を登録していてもよい。また、これらのカテゴリ毎に作成されてもよい。
但し、「汚名挽回」や「gooder」のように、一般的には誤用とされる単語であっても、あえてその単語を検索クエリとして検索が行われる場合もある。そのため、誤った単語であっても、有名な誤用や、検索クエリとして使用される可能性がある単語、検索履歴において検索クエリとして登場頻度(使用頻度)が高い(所定の閾値以上である)単語等に関しては、ブラックリストに登録しない、又は、あえてホワイトリストに登録しておく等の対応を行うようにしてもよい。
制御部40は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、整形処理装置10内部の記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部40は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。図4に示すように、制御部40は、取得部41と、整形処理部42と、出力部43を有する。
取得部41は、通信部20を介して、端末装置100又は検索サーバ200から、ユーザが入力した検索クエリを取得する。また、取得部41は、通信部20を介して、端末装置100又は検索サーバ200から検索クエリの成形処理の要求等を取得してもよい。
整形処理部42は、取得部41により取得された検索クエリの誤変換や誤字脱字の整形処理を行う。例えば、整形処理部42は、書き換え規則に従って候補を生成して、モデルのスコアが最大のものを選ぶ。
また、整形処理部42は、検出部51と、棄却部52を有する。
検出部51は、取得部41により取得された検索クエリの誤変換や誤字脱字の整形処理において、漢字列の読みのホワイトリスト又はブラックリストを用いて、不適切な書き換え結果を検出する。具体的には、検出部51は、整形処理後の書き換え結果が適切であるか否かを判定し、適切ではないと判定した場合、整形処理後の書き換え結果を不適切な書き換え結果として検出する。すなわち、検出部51は、整形処理後の書き換え結果が適切であるか否かを判定する判定部としても機能する。
棄却部52は、検出部51により検出された不適切な書き換え結果を棄却して、次点の書き換え候補を選択して新たな書き換え結果とする。棄却部52は、例えば漢字列の読みのホワイトリスト又はブラックリストを用いて、新たな書き換え結果が不適切な書き換え結果か否かを判定する。
出力部43は、通信部20を介して、整形処理部42により整形処理された検索クエリを、検索サーバ200に出力する。すなわち、出力部43は、通信部20を介して、整形処理後の検索クエリを、検索サーバ200に入力する。
〔5.整形処理装置10の処理フロー〕
次に、図5を用いて、制御情報を実行した端末装置100と整形処理装置10が実行する整形処理の手順について説明する。図5は、実施形態に係る整形処理の流れの一例を示すフローチャートである。
例えば、整形処理装置10は、ネットワークNを介して、ユーザの端末装置100又は検索サーバ200から検索クエリを取得する(ステップS101)。
そして、整形処理装置10は、取得された検索クエリの誤変換や誤字脱字の整形処理を行う(ステップS102)。このとき、整形処理装置10は、書き換え規則に従って書き換え候補を生成して、モデルのスコアが最大のものを選ぶ。現在の検索クエリが正しい場合、現在の検索クエリのスコアが最大となり、書き換え結果も現在の検索クエリと同じになる。
そして、整形処理装置10は、検索クエリの整形処理における書き換え結果について、漢字列の読みのホワイトリスト又はブラックリストを用いて、書き換え結果が適切か否かを判定する(ステップS103)。
そして、整形処理装置10は、書き換え結果が適切であると判定した場合(ステップS103;Yes)には、検索サーバ200に対して、整形処理後の検索クエリを送信する(ステップS104)。すなわち、整形処理装置10は、整形処理後の検索クエリを検索サーバ200に入力する。
また、整形処理装置10は、書き換え結果が適切ではない(不適切である)と判定した場合(ステップS103;No)には、次点の書き換え候補が存在するか否かを判定する(ステップS105)。
そして、整形処理装置10は、次点の書き換え候補が存在する場合(ステップS105;Yes)には、不適切な書き換え結果を棄却して、次点の書き換え候補を選択して新たな書き換え結果とする(ステップS106)。そして、整形処理装置10は、新たな書き換え結果について、書き換え結果が適切か否かを判定する(ステップS103に戻る)。
また、整形処理装置10は、次点の書き換え候補が存在しない場合(ステップS105;No)、すなわち不適切な書き換え結果しかなかった場合には、検索サーバ200に対して、整形処理を行う前の検索クエリ(元の検索クエリ)を送信する(ステップS107)。すなわち、整形処理装置10は、元の検索クエリを検索サーバ200に入力する。
〔6.変形例〕
上記では、提供処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、提供処理の変形例について説明する。なお、以下に説明する提供処理は、端末装置100側が発揮する機能により実現されてもよく、整形処理装置10側が発揮する機能により実現されてもよい。
〔6-1.装置構成〕
上記実施形態では、情報処理システム1に、検索サーバ200が含まれる例について説明したが、実施形態は、これに限定されるものではない。例えば、整形処理装置10は、端末装置100から検索クエリを受信し、検索クエリに整形処理を施した後、整形処理後の検索クエリを端末装置100に返信する機能を備えていてもよい。このような構成を有する場合、情報処理システム1は、検索サーバ200を有さずともよい。
また、上記実施形態では、情報処理システム1に、端末装置100が含まれる例について説明したが、実施形態は、これに限定されるものではない。例えば、整形処理装置10は、検索サーバ200から検索クエリを受信し、検索クエリに整形処理を施した後、整形処理後の検索クエリを検索サーバ200に返信する機能を備えていてもよい。このような構成を有する場合、情報処理システム1は、端末装置100を有さずともよい。
なお、整形処理装置10は、ユーザの端末装置100内の一機能として実装されてもよい。すなわち、整形処理装置10は、ユーザの端末装置100であってもよい。また、同様に、整形処理装置10は、検索サーバ200内の一機能として実装されてもよい。すなわち、整形処理装置10は、検索サーバ200であってもよい。
〔6-2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔6-3.プログラム〕
また、上述してきた実施形態に係る整形処理装置10及び端末装置100は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、フラッシュメモリ、HDD、SSD等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、及びスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、又は半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が端末装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部150の機能を実現する。また、コンピュータ1000が整形処理装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
〔7.効果〕
上述したように、整形処理装置10は、不自然な検索クエリの生成を抑制することができる。例えば、整形処理装置10は、単漢字の読みに基づく漢字列の読みの誤りを原因とする整形結果を、不適切な整形結果として検出することができる。また、整形処理装置10は、検索クエリに対し、整形規則に従って整形候補を生成し、モデルのスコアが最大の整形候補を整形結果として選択することができる。
また、整形処理装置10は、不適切な整形結果を棄却し、モデルのスコアが次点の整形候補を新たな整形結果として選択し、不適切な整形結果を検出するための所定のリストを用いて、新たな整形結果のうち、不適切な整形結果を検出することができる。
また、整形処理装置10は、ユーザが入力した検索クエリを、ユーザの端末装置100や検索サーバ200から取得することができる。また、整形処理装置10は、整形処理後の検索クエリを、検索サーバ200やユーザの端末装置100に送信することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 情報処理システム
10 整形処理装置
20、110 通信部
30 記憶部
31 検索履歴データベース
32 書き換え規則データベース
33 モデルデータベース
34 ホワイトリストデータベース
35 ブラックリストデータベース
40、150 制御部
41 取得部
42 整形処理部
43 出力部
51 検出部
52 棄却部
100 端末装置
120 入力部
130 出力部
140 物理センサ
151 要求部
152 操作制御部
153 表示処理部
200 検索サーバ

Claims (13)

  1. ユーザが入力した検索クエリを取得する取得部と、
    前記取得部により取得された前記検索クエリを所定の整形条件に従って整形する整形処理部と、
    不適切な整形結果を検出するための所定のリストを用いて、前記整形処理部により整形された前記検索クエリの整形結果のうち、不適切な整形結果を検出する検出部と、
    前記検出部により検出された前記不適切な整形結果を棄却する棄却部と、
    を有することを特徴とする情報処理装置。
  2. 前記整形処理部は、前記検索クエリの一部もしくは全てを漢字列に整形し、
    前記検出部は、前記所定のリストとして、漢字列と当該漢字列の読みとを対応付けたリストを用いて、不適切な整形結果を検出する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記検出部は、単漢字の読みに基づく漢字列の読みの誤りを原因とする整形結果を、不適切な整形結果として検出する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記所定のリストは、正しい漢字列の読みを示すホワイトリストである
    ことを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記所定のリストは、誤った漢字列の読みを示すブラックリストである
    ことを特徴とする請求項2~4のいずれか1つに記載の情報処理装置。
  6. 前記整形処理部は、前記検索クエリに対し、整形規則に従って整形候補を生成し、モデルのスコアが最大の整形候補を整形結果として選択する
    ことを特徴とする請求項1~5のいずれか1つに記載の情報処理装置。
  7. 前記棄却部は、前記検出部により検出された前記不適切な整形結果を棄却し、前記モデルのスコアが次点の整形候補を新たな整形結果として選択し、
    前記検出部は、不適切な整形結果を検出するための前記所定のリストを用いて、前記棄却部により選択された前記新たな整形結果のうち、不適切な整形結果を検出する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記整形処理部により整形された前記検索クエリの整形結果のうち、適切な整形結果を外部の情報処理装置に出力する出力部
    をさらに有することを特徴とする請求項1~7のいずれか1つに記載の情報処理装置。
  9. 前記取得部は、前記ユーザが端末装置に入力した前記検索クエリを、ネットワークを介して、前記外部の情報処理装置から取得する
    ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記外部の情報処理装置は、前記検索クエリに応じて処理を行うサーバ装置である
    ことを特徴とする請求項8又は9に記載の情報処理装置。
  11. 前記外部の情報処理装置は、前記ユーザの端末装置である
    ことを特徴とする請求項8又は9に記載の情報処理装置。
  12. 情報処理装置が実行する情報処理方法であって、
    ユーザが入力した検索クエリを取得する取得工程と、
    前記取得工程により取得された前記検索クエリを所定の整形条件に従って整形する整形処理工程と、
    不適切な整形結果を検出するための所定のリストを用いて、前記整形処理工程により整形された前記検索クエリの整形結果のうち、不適切な整形結果を検出する検出工程と、
    前記検出工程により検出された前記不適切な整形結果を棄却する棄却工程と、
    を含むことを特徴とする情報処理方法。
  13. ユーザが入力した検索クエリを取得する取得手順と、
    前記取得手順により取得された前記検索クエリを所定の整形条件に従って整形する整形処理手順と、
    不適切な整形結果を検出するための所定のリストを用いて、前記整形処理手順により整形された前記検索クエリの整形結果のうち、不適切な整形結果を検出する検出手順と、
    前記検出手順により検出された前記不適切な整形結果を棄却する棄却手順と、
    をコンピュータに実行させるためのプログラム。
JP2020085461A 2020-05-14 2020-05-14 情報処理装置、情報処理方法及びプログラム Active JP7128229B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020085461A JP7128229B2 (ja) 2020-05-14 2020-05-14 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020085461A JP7128229B2 (ja) 2020-05-14 2020-05-14 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2021179860A JP2021179860A (ja) 2021-11-18
JP7128229B2 true JP7128229B2 (ja) 2022-08-30

Family

ID=78511575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020085461A Active JP7128229B2 (ja) 2020-05-14 2020-05-14 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7128229B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063545A (ja) 2010-09-15 2012-03-29 Ntt Docomo Inc 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2018190030A (ja) 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理サーバ、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063545A (ja) 2010-09-15 2012-03-29 Ntt Docomo Inc 音声認識結果出力装置、音声認識結果出力方法、及び音声認識結果出力プログラム
JP2018190030A (ja) 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理サーバ、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム

Also Published As

Publication number Publication date
JP2021179860A (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
US20200104427A1 (en) Personalized neural query auto-completion pipeline
US10402474B2 (en) Keyboard input corresponding to multiple languages
US10242033B2 (en) Extrapolative search techniques
US11080330B2 (en) Generation of digital content navigation data
JP2015207051A (ja) 既読判断装置、既読判断方法、および既読判断プログラム
RU2674331C2 (ru) Система и процесс для анализа, квалифицирования и проглатывания источников неструктурированных данных посредством эмпирической атрибуции
US9946813B2 (en) Computer-readable recording medium, search support method, search support apparatus, and responding method
JP6745127B2 (ja) 情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
US20240104105A1 (en) Search query modification database
RU2726009C1 (ru) Способ и система для исправления неверного набора слова вследствие ошибки ввода с клавиатуры и/или неправильной раскладки клавиатуры
CN107239209B (zh) 一种拍照搜索方法、装置、终端及存储介质
JP7128229B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6568968B2 (ja) 文書校閲装置およびプログラム
EP2458515A1 (en) Method and apparatus for searching contents in a communication system
US11586639B2 (en) Information computing apparatus, information computing method, and non-transitory computer readable storage medium
US20160196266A1 (en) Inferring seniority based on canonical titles
US10496711B2 (en) Method of and system for processing a prefix associated with a search query
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP7212655B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20200175394A1 (en) Active learning model training for page optimization
US20200175476A1 (en) Job identification for optimizing digital page
JP7354072B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2023039318A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7128229

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350