JP7485706B2 - Information processing device, information processing method, and information processing program - Google Patents
Information processing device, information processing method, and information processing program Download PDFInfo
- Publication number
- JP7485706B2 JP7485706B2 JP2022024322A JP2022024322A JP7485706B2 JP 7485706 B2 JP7485706 B2 JP 7485706B2 JP 2022024322 A JP2022024322 A JP 2022024322A JP 2022024322 A JP2022024322 A JP 2022024322A JP 7485706 B2 JP7485706 B2 JP 7485706B2
- Authority
- JP
- Japan
- Prior art keywords
- useful
- information
- strings
- information processing
- posted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 158
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000010801 machine learning Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 64
- 230000008569 process Effects 0.000 description 60
- 238000012545 processing Methods 0.000 description 30
- 238000013145 classification model Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000013500 data storage Methods 0.000 description 6
- 238000012797 qualification Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.
インターネット上の求人サービスにおいて、企業を紹介する企業情報詳細ページに対して、Q&A(Question and Answer)サイト(適宜、「質問サイト」)に投稿された企業に関連する質問情報を付加したいことがある。 In an online job search service, it may be necessary to add questions related to a company posted on a Q&A (Question and Answer) site (referred to as a "question site") to a company information detail page that introduces the company.
しかしながら、従来技術は、顧客(適宜、「利用者」)に対して効率的に情報を提供する上で改善の余地がある。例えば、質問サイトへの質問は多岐にわたるので、求人カテゴリの質問だとしても、就職に関連しない質問が投稿されることが多くある。従来技術では、そのような就職に関連しない質問を効率的に除外することが難しい。 However, conventional technology has room for improvement in terms of efficiently providing information to customers (referred to as "users"). For example, because questions posted on question sites are diverse, questions that are not related to employment are often posted, even if they are in the job category. With conventional technology, it is difficult to efficiently filter out such questions that are not related to employment.
本願は、上記に鑑みてなされたものであって、利用者に対して効率的に情報を提供可能にする情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。 The present application has been made in consideration of the above, and aims to provide an information processing device, an information processing method, and an information processing program that enable efficient provision of information to users.
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、を備えることを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the information processing device according to the present invention is characterized by having a generation unit that extracts useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generates string information that associates target information indicating the target with the useful strings and non-useful strings.
また、本発明に係る情報処理方法は、情報処理装置によって実行される情報処理方法であって、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、を含むことを特徴とする。 The information processing method according to the present invention is an information processing method executed by an information processing device, and is characterized by including a generation step of extracting useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generating string information that associates target information indicating the target with the useful strings and the non-useful strings.
また、本発明に係る情報処理プログラムは、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、をコンピュータに実行させることを特徴とする。 The information processing program according to the present invention is characterized in that it causes a computer to execute a generation procedure for extracting useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generating string information that associates target information indicating the target with the useful strings and non-useful strings.
本発明では、利用者に対して効率的に情報を提供することができる。 The present invention allows information to be provided to users efficiently.
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、実施形態)について図面を参照しつつ詳細に説明する。なお、この実施形態により、本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Below, the information processing device, information processing method, and information processing program according to the present application will be described in detail with reference to the drawings. Note that the information processing device, information processing method, and information processing program according to the present application are not limited to these embodiments. In addition, the same components in the following embodiments will be denoted by the same reference numerals, and duplicated descriptions will be omitted.
〔実施形態〕
以下に、実施形態に係る情報処理システム100の構成、情報処理装置10の構成、情報処理の具体例、情報処理の流れを順に説明し、最後に実施形態の効果を説明する。
[Embodiment]
The configuration of the
〔1.情報処理システム100の構成〕
図1を用いて、実施形態に係る情報処理システム100の処理を説明する。図1は、実施形態に係る情報処理システム100の構成例を示す図である。以下では、情報処理システム100の構成例、情報処理システム100の処理、情報処理システム100の効果の順に説明する。
1. Configuration of
The processing of the
(1-1.情報処理システム100の構成例)
図1に示した情報処理システム100は、情報処理装置10を有する。なお、情報処理システム100には、複数台の情報処理装置10が含まれてもよい。また、情報処理システム100では、情報処理装置10に入力するデータとして、質問サイト投稿文(適宜、「投稿情報」)20、また、情報処理装置10が出力するデータとして、就職活動支援サイト表示画面30上に表示されるQ&A一覧(適宜、「表示情報」)31が関与する。
(1-1. Configuration example of information processing system 100)
1 includes an
(1-1-1.情報処理装置10)
情報処理装置10は、質問サイト投稿文20を収集したり、就職活動支援サイト表示画面30を作成したりする就職活動支援サイトの管理者によって使用されるデバイス(コンピュータ)である。情報処理装置10は、就職活動支援サイトの管理者による操作を受け付ける。なお、情報処理装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1の例では、情報処理装置10がデスクトップPCにより実現される場合を示す。
(1-1-1. Information processing device 10)
The
(1-1-2.質問サイト投稿文20)
質問サイト投稿文20は、質問サイト上に当該サイトの利用者から投稿された、質問文と当該質問文に対する回答文とを含む文章データである。ここで、質問サイト投稿文20は、質問文のみから構成されるデータであってもよい。また、質問サイト投稿文20は、投稿された質問文と、当該質問文に対する回答文のうち最適の回答文(ベストアンサー)に評価された回答文のみとから構成されるデータであってもよい。さらに、質問サイト投稿文20は、文章データの他、画像データ、動画データまたは音声データを含むものであってもよい。
(1-1-2. Q&A site post 20)
The
(1-1-3.就職活動支援サイト表示画面30)
就職活動支援サイト表示画面30は、当該就職活動支援サイトに登録された企業(適宜、「事業者」)ごとに作成されたウェブページであり、Q&A一覧31の他、企業概要や求人、年収・給与等に関する情報も含まれる。
(1-1-3. Job hunting support site display screen 30)
The job hunting support
(1-2.情報処理システム100の処理)
情報処理システム100において、まず、情報処理装置10の操作者は、質問サイト投稿文20の入力処理を実行する(図1(1)参照)。次に、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する情報処理を実行する(図1(2)参照)。最後に、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30の出力処理を実行する(図1(3)参照)。以下では、情報処理システム100の処理について、入力処理、情報処理、出力処理の順に詳細に説明する。
(1-2. Processing of Information Processing System 100)
In the
(1-2-1.入力処理)
図1(1)に示すように、情報処理装置10は、操作者から質問サイト投稿文20の入力を受け付け、入力データを取得する。このとき、情報処理装置10は、図示しない端末から送信された質問サイト投稿文20を、情報処理装置10の通信部11を介して入力を受け付けてもよい。
(1-2-1. Input Processing)
1(1), the
(1-2-2.情報処理)
図1(2)に示すように、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する。以下では、当該情報処理について、投稿情報分類処理、文字列情報生成処理、投稿情報選択処理の順に詳細に説明する。
(1-2-2. Information Processing)
1B, the
(1-2-2-1.投稿情報分類処理)
図1(2-1)に示すように、情報処理装置10は、機械学習モデルである分類モデル(適宜、「学習モデル」)14dを用いて、入力された質問サイト投稿文20を分類する処理を行う(投稿情報分類処理)。このとき、情報処理装置10は、収集された質問文に対して当該質問文が就職に関連する有用な情報であるか否かのラベルが付与されたアノテーションデータ(適宜、「学習データ」)によって学習したDNN(Deep Neural Network)等の分類モデル14dを用いて、入力された質問サイト投稿文20を分類する処理を行う。図1の例に示すように、情報処理装置10は、質問サイト投稿文20が入力されると、質問文ごとに有用性の判定結果を示した分類リスト14b-1を分類結果として出力する。
(1-2-2-1. Posted Information Classification Processing)
As shown in FIG. 1 (2-1), the
図1の例を用いて説明すると、情報処理装置10は、質問サイト投稿文20に記載されたNo.1の質問文「Z社って外資企業?」について、企業名「Z社」やキーワード「外資企業」をもとに、就職関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.2の質問文「Y社・R社の年収は?」について、企業名「Y社」、「R社」やキーワード「年収」をもとに、就職関連の質問文として分類する。
Explaining using the example of FIG. 1, the
一方、情報処理装置10は、質問サイト投稿文20に記載されたNo.3の質問文「L社のアプリは便利?」について、企業名「L社」が含まれているがアプリ開発会社である「L社」の商品についての質問文であるので、就職非関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.4の質問文「U社の服で面接行っていい?」について、企業名「U社」が含まれているが衣服販売会社「U社」の商品についての質問文であるので、就職非関連の質問文として分類する。
On the other hand, the
情報処理装置10は、上記の分類モデル14dによる分類結果として、No.1の質問文「○」、No.2の質問文「○」、No.3の質問文「×」、No.4の質問文「×」・・・の、就職に関する有用判定を記載した分類リスト14b-1を出力する。
The
(1-2-2-2.文字列情報生成処理)
図1(2-2)に示すように、情報処理装置10は、後述するキーワードマッチに用いるキーワード辞書(適宜、「文字列情報」)14b-2を生成する処理を行う(文字列情報生成処理)。ここで、キーワード辞書14b-2とは、企業ごとに作成された所定のサービス(例:就職、会社説明、金融等の支援サイト)に関する有用な情報であるか否かの判断に用いるキーワードをリスト化したものである。キーワード辞書14b-2にリスト化されるキーワードには、企業名に関するキーワード(以下、「企業名キーワード」)の他、上記サービスに質問文を表示する際に有用である有用キーワード(適宜、「有用文字列」)と、上記サービスに質問文を表示する際に有用でない非有用キーワード(適宜、「非有用文字列」)とが含まれる。
(1-2-2-2. Character String Information Generation Process)
As shown in FIG. 1 (2-2), the
ここで、企業名キーワードのリスト化について説明する。情報処理装置10は、企業名のカタログ等である企業名データベースから企業の正式名称と、企業IDとを取得する。例えば、情報処理装置10は、企業である「Y社」の正式名称「Y株式会社」と、企業ID「23」とを取得し、「Y株式会社」と「23」とを紐づけしたキーワード辞書14b-2を生成する。次に、情報処理装置10は、インターネット百科事典等の外部リソースが保持する情報(適宜、「外部リソース情報」)を取得し、上記のキーワード辞書14b-2に対して企業名の表記ゆれを追加する。例えば、情報処理装置10は、上記の外部リソース情報として、住所、創立年月日、社長の名前、従業員数の情報をもとに、「Y株式会社」が「Y社」、「Y」、「Yジャパン」等で表記されることを対応付ける。
Here, we will explain how to list company name keywords. The
次に、有用キーワードおよび非有用キーワードのリスト化について説明する。ここで、有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用である可能性が高いことを示す文字列である。例えば、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードとして「求人」等がある。一方、非有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用でない可能性が高いことを示す文字列である。例えば、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードとして「アップデート」等がある。 Next, we will explain how to list useful keywords and non-useful keywords. Here, useful keywords are character strings extracted for each company, and are character strings that indicate that questions containing the character string are likely to be useful for a specified service. For example, a useful keyword included in an employment-related question from a workwear sales company, "Company W," is "job openings." On the other hand, non-useful keywords are character strings extracted for each company, and are character strings that indicate that questions containing the character string are likely not useful for a specified service. For example, a non-useful keyword included in a non-employment-related question from a software development company, "Company M," is "update."
情報処理装置10は、就職に関する有用キーワードおよび非有用キーワードをリスト化する場合には、就職に関するアノテーションデータによって学習した分類モデル14dを用いて、収集された特定の企業名を含んだラベルなし質問文を分類することによって仮ラベル付けを行う。例えば、情報処理装置10は、「Y社」に関するキーワード辞書14b-2を作成する場合には、「Y社」の企業名を含んだラベルなし質問文の入力を受け付け、就職に関する分類モデル14dを用いて、就職関連または就職非関連の仮ラベルが付与された質問文である仮ラベルデータを出力する。
When creating a list of useful and unuseful keywords related to employment, the
続いて、情報処理装置10は、アノテーションデータの正例および仮ラベルデータの負例にはあまり含まれず、仮ラベルデータの正例には比較的多く含まれる単語を有用キーワードとして抽出する。一方、情報処理装置10は、アノテーションデータの負例および仮ラベルデータの正例にはあまり含まれず、仮ラベルデータの負例には比較的多く含まれる単語を非有用キーワードとして抽出する。このとき、情報処理装置10は、単語の出現頻度や相互情報量に基づいて、有用キーワードおよび非有用キーワードを抽出する。また、情報処理装置10は、質問文に含まれる文字列の品詞を判定し、特定の品詞(例:名詞)のみを抽出してもよい。
Then, the
最後に、情報処理装置10は、抽出した有用キーワードおよび非有用キーワードを、企業名や企業IDと紐づけしたキーワード辞書14b-2を生成する。このとき、情報処理装置10は、企業ごとに生成されたキーワード辞書14b-2をもとに、企業のカテゴリで共通する有用キーワードおよび非有用キーワードを抽出してもよいし、すべての企業で共通する汎用的な有用キーワードおよび非有用キーワードを抽出してもよい。
Finally, the
(1-2-2-3.投稿情報選択処理)
図1(2-3)に示すように、情報処理装置10は、キーワード辞書14b-2を用いて、質問サイト投稿文20の質問文のキーワードマッチを行う(投稿情報選択処理)。このとき、情報処理装置10は、キーワード辞書14b-2に記載されている企業名キーワードをもとに、質問文と企業IDとを紐づけしたキーワードマッチ結果(選択結果)である選択リスト14b-3を出力する。
(1-2-2-3. Posted Information Selection Process)
1 (2-3), the
また、情報処理装置10は、分類結果である分類リスト14b-1をもとに、選択リスト14b-3から質問文を削除する。例えば、情報処理装置10は、選択リスト14b-3に記載されたNo.1~No.4の質問文のうち、分類リスト14b-1において有用判定が「×」であるNo.3およびNo.4の質問文を削除する。
In addition, the
さらに、情報処理装置10は、キーワード辞書14b-2に記載されている有用キーワードおよび非有用キーワードをもとに、選択リスト14b-3における質問文と企業IDとの紐づけを変更する。例えば、情報処理装置10は、有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、情報処理装置10は、非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、情報処理装置10は、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、情報処理装置10は、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。
Furthermore, the
上述してきた処理によって、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3を、就職活動支援サイト表示画面30に表示する表示情報であるQ&A一覧31として出力する。例えば、情報処理装置10は、「Y社」の就職活動支援サイト表示画面30に表示するQ&A一覧31として、「Y社の年収はどのくらいなのでしょうか?」の質問文および回答文を出力する。
By the above-mentioned process, the
また、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3をもとに、同様の質問文が投稿された企業に関する情報を表示情報として出力することもできる。例えば、情報処理装置10は、「年収はどのくらいなのでしょうか?」の質問文が投稿されている「Y社」以外の企業として「R社」を出力することもできる。
The
(1-2-3.出力処理)
図1(3)に示すように、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30を出力する(図1(3)参照)。このとき、情報処理装置10は、出力した表示情報であるQ&A一覧31を、通信部11を介して図示しない端末に送信してもよい。
(1-2-3. Output processing)
As shown in Fig. 1 (3), the
(1-3.情報処理システム100の効果)
情報処理システム100の効果について、有用キーワードおよび非有用キーワードを使用しない技術での問題点を具体的に説明した上で、詳細に説明する。
(1-3. Effects of Information Processing System 100)
The effects of the
(1-3-1.問題点)
まず、有用キーワードおよび非有用キーワードを使用しない技術、すなわち所定のサービスごとに学習された分類モデル14dによる分類処理の問題点について説明する。例えば、就職に関する分類モデル14dを用いて、質問文「M社の提供する○○のような資格を取るとY社の就職に有利?」を分類することを考える。分類モデル14dによる分類処理では、「資格」、「就職」の単語に反応し、就職関連の質問文であると判定する。しかしながら、上記の分類処理では、「M社」、「Y社」の企業名に反応し、「M社」および「Y社」の就職関連の質問文と判定してしまう。ここで、資格名「○○」は、「M社」が提供する資格であるので、「M社」の就職関連の質問文として分類することは適切ではない。上記の例であれば、資格名「○○」および「資格」の単語が含まれる質問文は「M社」とは紐づけせず、「Y社」とは紐づけすることが好ましい。一方、上記の問題点を解消するために、「M社」や「Y社」等の各企業専用の就職関連の分類モデル14dを作成し、分類処理に用いることも難しい。
(1-3-1. Issues)
First, a problem with the classification process using a technology that does not use useful keywords and non-useful keywords, that is, a
以上のように、企業によってその質問が就職に関連するか否かの基準は違うので、汎用の分類モデル14dの分類処理のみで就職活動支援サイトに表示するQ&A一覧31を作成することは困難である。そこで、実施形態に係る情報処理システム100では、上記の分類モデル14dの分類処理に加えて、企業ごとの有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を作成し、当該キーワード辞書14b-2を用いてQ&A一覧31を選択することによって、上記の問題点を解消する。
As described above, different companies have different standards for whether a question is relevant to employment, so it is difficult to create a
(1-3-2.概要)
情報処理システム100では、情報処理装置10は、質問サイトにおいて投稿された質問サイト投稿文20を取得し、就職活動支援サイトにおいてQ&A一覧31を表示する際に有用である有用キーワード、および有用でない非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された企業ごとに、質問サイト投稿文20から就職活動支援サイトに表示するQ&A一覧31を選択し、当該Q&A一覧31を表示する。このとき、情報処理装置10は、質問サイト投稿文20と就職活動支援サイトにおける有用性とを学習した分類モデル14dを用いて、取得された質問サイト投稿文20を分類し、有用性があると分類された質問サイト投稿文20から、Q&A一覧31に表示する質問文を選択する。さらに、情報処理装置10は、企業に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、企業を示す企業IDと、有用キーワードおよび非有用キーワードとを対応付けたキーワード辞書14b-2を生成する。
(1-3-2. Overview)
In the
(1-3-3.効果)
このため、情報処理システム100では、利用者に対して効率的に情報を提供することができる。すなわち、情報処理システム100では、就職活動支援サイトの利用者が閲覧するQ&A一覧31を効率的に作成することができる。また、情報処理システム100では、上記のQ&A一覧31を作成するための有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を自動生成することができるので、さらにQ&A一覧31を効率的に、かつ効果的に作成することができる。
(1-3-3. Effects)
Therefore, the
〔2.情報処理装置10の構成〕
図2を用いて、実施形態に係る情報処理装置10の構成について説明する。図2は、実施形態に係る情報処理装置10の構成例を示すブロック図である。図2に示すように、情報処理装置10は、通信部11、入力部12、出力部13、記憶部14および制御部15を有する。
2. Configuration of
The configuration of the
(2-1.通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、所定の通信網(ネットワーク)と有線または無線で接続され、各種装置との間で情報の送受信を行う。
(2-1. Communication Unit 11)
The
(2-2.入力部12)
入力部12は、例えば、キーボードやマウス等で実現される。そして、入力部12は、情報処理装置10の管理者等から各種操作を受け付ける。例えば、入力部12は、情報処理装置10の管理者等から質問サイト投稿文20の入力を受け付ける。
(2-2. Input unit 12)
The
(2-3.出力部13)
出力部13は、例えば、液晶ディスプレイ等で実現される。そして、出力部13は、各種情報を表示する。例えば、出力部13は、情報処理装置10の制御部15によって生成された就職活動支援サイト表示画面30を表示する。
(2-3. Output unit 13)
The
(2-4.記憶部14)
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部14は、図2に示すように、収集情報記憶部14a、処理結果記憶部14b、学習データ記憶部14cおよび学習モデル14dを有する。そして、記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。
(2-4. Storage unit 14)
The storage unit 14 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in Fig. 2, the storage unit 14 according to the embodiment has a collected
(2-4-1.収集情報記憶部14a)
収集情報記憶部14aは、情報処理装置10の取得部15aによって取得された収集情報を記憶する。例えば、収集情報記憶部14aは、質問サイトサーバから取得した質問サイト投稿文20である投稿情報、企業名データベースから取得した企業の情報である事業者情報、インターネット百科事典等の外部リソースから取得した外部リソース情報等を記憶する。
(2-4-1. Collected
The collected
(2-4-2.処理結果記憶部14b)
処理結果記憶部14bは、情報処理装置10の分類部15b、生成部15cおよび選択部15dによって出力された処理結果を記憶する。例えば、処理結果記憶部14bは、分類結果である分類部15bによって出力された分類リスト14b-1、生成結果である生成部15cによって出力されたキーワード辞書(文字列情報)14b-2、選択結果である選択部15dによって出力された選択リスト14b-3等を記憶する。また、処理結果記憶部14bは、表示部15eが表示するQ&A一覧(表示情報)31を記憶してもよい。
(2-4-2. Processing
The processing
(2-4-3.学習データ記憶部14c)
学習データ記憶部14cは、機械学習モデルの学習を行うための学習データを記憶する。例えば、学習データ記憶部14cは、学習データ「入力データ、正解情報」として「質問サイト投稿文、就職に関する有用判定」等の機械学習モデル14dに入力するためのラベル付きのアノテーションデータを記憶する。
(2-4-3. Learning
The learning
(2-4-4.学習モデル14d)
学習モデル14dは、質問サイト投稿文20の入力に応じて就職に関する有用判定を出力するように学習された、単語ベースの線形分類モデルである。例えば、学習モデル14dは、学習データ記憶部14cに記憶される就職に関するアノテーションデータを用いて生成された学習済みモデルである。
(2-4-4.
The
(2-5.制御部15)
制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(2-5. Control Unit 15)
The control unit 15 is realized, for example, by a CPU (Central Processing Unit) or an MPU (Micro Processing Unit) executing various programs (corresponding to an example of an information processing program) stored in a storage device inside the
図2に示すように、制御部15は、取得部15a、分類部15b、生成部15c、選択部15d、表示部15eおよび学習部15fを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。
As shown in FIG. 2, the control unit 15 has an acquisition unit 15a, a classification unit 15b, a
(2-5-1.取得部15a)
取得部15aは、質問サイトにおいて投稿された投稿情報を取得する。例えば、取得部15aは、質問サイトを管理するサーバから、投稿情報である質問サイト投稿文20を取得する。また、取得部15aは、企業名データベースから、企業の情報である事業者情報を取得する。また、取得部15aは、インターネット百科事典等の外部リソースから、外部リソース情報を取得する。
(2-5-1. Acquisition unit 15a)
The acquisition unit 15a acquires posted information posted on the question site. For example, the acquisition unit 15a acquires posted
なお、取得部15aは、取得した投稿情報、事業者情報および外部リソース情報を収集情報記憶部14aに格納する。
The acquisition unit 15a collects and stores the acquired post information, business information, and external resource information in the
(2-5-2.分類部15b)
分類部15bは、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデル14dを用いて、取得された投稿情報を分類する。例えば、分類部15bは、質問サイト投稿文20と就職活動支援サイトにおける有用性とをアノテーションデータを用いて学習した分類モデル14dを用いて、取得された質問サイト投稿文20を「就職関連」または「就職非関連」のいずれかに分類する。
(2-5-2. Classification unit 15b)
The classification unit 15b classifies the acquired posted information using the
なお、分類部15bは、分類対象となる質問サイト投稿文20を収集情報記憶部14aから取得する。一方、分類部15bは、分類結果である質問文ごとに有用判定が示された分類リスト14b-1を処理結果記憶部14bに格納する。
The classification unit 15b acquires the question site posts 20 to be classified from the collected
(2-5-3.生成部15c)
生成部15cは、機械学習モデル14dの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデル14dを用いて出力された分類結果とに基づいて、当該対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列(有用キーワード)、および有用でない非有用文字列(非有用キーワード)を抽出し、当該対象を示す対象情報と、有用文字列および非有用文字列とを対応付けた文字列情報を生成する。例えば、生成部15cは、文字列情報として、対象に関するコンテンツを表示する際に、当該コンテンツ内に配置して表示する投稿情報の選択に用いられる情報を生成する。
(2-5-3.
The
具体的な例を挙げて説明すると、生成部15cは、就職に関する分類モデル14dの学習に用いるアノテーションデータと、企業「Y社」に関連する質問サイト投稿文20から分類モデル14dを用いて出力された分類リスト14b-1とに基づいて、「Y社」に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、「Y社」を示す企業ID「23」と、有用キーワードおよび非有用キーワードとを対応付けた選択リスト14b-3を生成する。
To explain this with a specific example, the
有用キーワードおよび非有用キーワードの抽出処理について説明すると、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。
Explaining the process of extracting useful keywords and non-useful keywords, the
一方、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。
Meanwhile, the
なお、生成部15cは、学習データであるアノテーションデータを学習データ記憶部14cから取得する。また、生成部15cは、所定の対象に関連する投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。一方、生成部15cは、生成結果の文字列情報であるキーワード辞書14b-2を処理結果記憶部14bに格納する。
The
(2-5-4.選択部15d)
選択部15dは、所定のサービスにおいて投稿情報に関する表示情報を表示する際に有用である有用文字列(有用キーワード)、および/または有用でない非有用文字列(非有用キーワード)に基づいて、所定の対象と当該投稿情報とを対応付けた表示情報を選択する。例えば、選択部15dは、就職活動支援サイトにおける有用キーワード、および非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された事業者(企業)ごとに、表示情報であるQ&A一覧31を選択する。
(2-5-4.
The
選択部15dは、有用性があると分類された投稿情報から、表示情報を選択する。例えば、選択部15dは、分類部15bによって就職活動支援サイトにおいて有用である「就職関連」と分類された質問サイト投稿文20から、企業ごとにQ&A一覧31を選択する。このとき、選択部15dは、企業名を含む質問サイト投稿文20を当該企業IDと紐づけて企業ごとの選択リスト14b-3を作成し、当該選択リスト14b-3のうち分類部15bによって「就職非関連」と分類された質問サイト投稿文20を削除し、企業ごとにQ&A一覧31を選択する。
The
さらに、選択部15dは、有用キーワードが含まれる投稿情報を表示情報として選択し、非有用キーワードが含まれる投稿情報を表示情報として選択しない。例えば、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、選択部15dは、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、選択部15dは、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。
Furthermore, the
なお、選択部15dは、投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。また、選択部15dは、分類結果である分類リスト14b-1を処理結果記憶部14bから取得する。一方、選択部15dは、選択結果である企業ごとの最終的な選択リスト14b-3、すなわち企業ごとのQ&A一覧31を処理結果記憶部14bに格納する。
The
(2-5-5.表示部15e)
表示部15eは、表示情報を表示する。例えば、表示部15eは、就職活動支援サイト表示画面30上に、企業ごとにQ&A一覧31を表示する。また、表示部15eは、就職活動支援サイト表示画面30上に、共通する質問文に出現する企業名を表示情報として表示する。なお、表示部15eは、企業ごとのQ&A一覧31等の表示情報を処理結果記憶部14bから取得する。また、表示部15eは、企業ごとのQ&A一覧31等の表示情報を、図示しない事業者端末やデータベースに送信してもよい。
(2-5-5. Display unit 15e)
The display unit 15e displays the display information. For example, the display unit 15e displays a
(2-5-6.学習部15f)
学習部15fは、収集された質問文に対して当該質問文が就職に関する有用な情報であるか否かのラベルが付与されたアノテーションデータを用いて、入力された質問サイト投稿文20が「就職関連」または「就職非関連」のいずれであるかの分類結果を出力するように、機械学習モデル14dの学習を行う。このとき、学習部13fは、バックプロパゲーション等により機械学習モデル14dの学習を行ってもよい。また、学習部15fは、複数の機械学習モデル14dの学習を行うこともできる。
(2-5-6. Learning unit 15f)
The learning unit 15f uses annotation data in which a label is added to the collected question text indicating whether the question text is useful information related to employment, to train the
〔3.情報処理の具体例〕
続いて、実施形態に係る情報処理の具体例について説明する。以下では、情報処理装置10の有用キーワードを用いた選択処理、非有用キーワードを用いた選択処理、有用キーワードおよび非有用キーワードの抽出処理の具体例について説明する。
[3. Specific examples of information processing]
Next, a specific example of the information processing according to the embodiment will be described. A specific example of the selection process using useful keywords, the selection process using unuseful keywords, and the extraction process of useful keywords and unuseful keywords of the
(3-1.有用キーワードを用いた選択処理)
図3を用いて、実施形態に係る有用キーワードを用いた選択処理について説明する。図3は、実施形態に係る選択処理の具体例1を示す図である。以下では、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードの例について説明する。
(3-1. Selection process using useful keywords)
A selection process using useful keywords according to the embodiment will be described with reference to Fig. 3. Fig. 3 is a diagram showing a specific example 1 of the selection process according to the embodiment. Below, an example of useful keywords included in a question text related to employment from a workwear sales company "Company W" will be described.
図3に示すように、「W社」の有用キーワードとして「求人」等が登録されている場合(図3(1)参照)、情報処理装置10は、「求人」が含まれている質問文を「W社」の就職関連の質問文として選択する(図3(2)参照)。すなわち、情報処理装置10は、「求人」というキーワードが「W社」の企業名が含まれる質問文において、就職関連の質問文である可能性が高いと判定する。図3の例で示すように、有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用である可能性が高いことを示す。
As shown in FIG. 3, when "job vacancies" and the like are registered as useful keywords for "Company W" (see FIG. 3 (1)), the
(3-2.非有用キーワードを用いた選択処理)
図4を用いて、実施形態に係る非有用キーワードを用いた選択処理について説明する。図4は、実施形態に係る選択処理の具体例2を示す図である。以下では、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードの例について説明する。
(3-2. Selection process using non-useful keywords)
A selection process using non-useful keywords according to the embodiment will be described with reference to Fig. 4. Fig. 4 is a diagram showing a specific example 2 of the selection process according to the embodiment. Below, an example of non-useful keywords included in a question text not related to employment from a software development company "Company M" will be described.
図4に示すように、「M社」の非有用キーワードとして「アップデート」、「表計算ソフトE」等が登録されている場合(図4(1)参照)、情報処理装置10は、「アップデート」、「表計算ソフトE」が含まれている質問文を「M社」の就職非関連の質問文として選択する(図4(2)参照)。すなわち、情報処理装置10は、「M社」のサービスに関連する「アップデート」や、「M社」の製品である「表計算ソフトE」というキーワードが「M社」の企業名が含まれる質問文において、就職非関連の質問文である可能性が高いと判定する。図4の例で示すように、非有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用でない可能性が高いことを示す。
As shown in FIG. 4, when "update", "spreadsheet software E", etc. are registered as non-useful keywords for "Company M" (see FIG. 4 (1)), the
(3-3.有用キーワードおよび非有用キーワードの抽出処理)
図5を用いて、実施形態に係る有用キーワードおよび非有用キーワードの抽出処理について説明する。図5は、実施形態に係る抽出処理の具体例を示す図である。ここで、アノテーションデータの正例は、全体の企業における「就職関連」とラベル付けされた質問文であり、アノテーションデータの負例は、全体の企業における「就職非関連」とラベル付けされた質問文であり、仮ラベルデータの正例は、特定の企業における「就職関連」と仮ラベル付けされた質問文であり、仮ラベルデータの負例は、特定の企業における「就職非関連」と仮ラベル付けされた質問文である。
(3-3. Extraction process of useful and non-useful keywords)
The extraction process of useful keywords and non-useful keywords according to the embodiment will be described with reference to Fig. 5. Fig. 5 is a diagram showing a specific example of the extraction process according to the embodiment. Here, a positive example of annotation data is a question sentence labeled as "employment-related" for all companies, a negative example of annotation data is a question sentence labeled as "non-employment-related" for all companies, a positive example of temporary label data is a question sentence temporarily labeled as "employment-related" for a specific company, and a negative example of temporary label data is a question sentence temporarily labeled as "non-employment-related" for a specific company.
図5に示すように、情報処理装置10は、アノテーションデータの正例において少なく、仮ラベルデータの負例において少なく、かつ仮ラベルデータの正例において多く含まれる単語を有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。
As shown in FIG. 5, the
一方、情報処理装置10は、アノテーションデータの負例において少なく、仮ラベルデータの正例において少なく、かつ仮ラベルデータの負例において多く含まれる単語を非有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。
On the other hand, the
〔4.情報処理の流れ〕
図6を用いて、実施形態に係る情報処理装置10の情報処理の手順について説明する。図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。なお、下記のステップS101~S105は、異なる順序で実行することもできる。また、下記のステップS101~S105のうち、省略される処理があってもよい。
[4. Information processing flow]
The procedure of information processing of the
(4-1.投稿情報取得処理)
第1に、情報処理装置10の取得部15aは、投稿情報取得処理を実行する(ステップS101)。例えば、取得部15aは、質問サイトサーバから、投稿された質問サイト投稿文20を取得する。
(4-1. Posted Information Acquisition Process)
First, the acquisition unit 15a of the
(4-2.投稿情報分類処理)
第2に、情報処理装置10の分類部15bは、投稿情報分類処理を実行する(ステップS102)。例えば、分類部15bは、就職に関する分類モデル14dを用いて、質問サイト投稿文20を就職関連、または就職非関連に分類する。
(4-2. Posted Information Classification Processing)
Second, the classification unit 15b of the
(4-3.文字列情報生成処理)
第3に、情報処理装置10の生成部15cは、文字列情報生成処理を実行する(ステップS103)。例えば、生成部15cは、アノテーションデータと企業ごとの質問サイト投稿文20とから、就職に関する分類モデル14dを用いて、企業ごとに有用キーワードおよび非有用キーワードを紐づけしたキーワード辞書14b-2を生成する。
(4-3. Character String Information Generation Process)
Third, the generating
(4-4.投稿情報選択処理)
第4に、情報処理装置10の選択部15dは、投稿情報選択処理を実行する(ステップS104)。例えば、選択部15dは、キーワード辞書14b-2をもとに、企業ごとに選択リスト14b-3を作成し、就職活動支援サイトに表示するQ&A一覧31を生成する。
(4-4. Posted Information Selection Process)
Fourth, the
(4-5.投稿情報表示処理)
第5に、情報処理装置10の表示部15eは、投稿情報表示処理を実行し(ステップS105)、処理を終了する。例えば、表示部15eは、企業ごとにQ&A一覧31を含む就職活動支援サイト表示画面30を表示する。
(4-5. Posted Information Display Processing)
Fifth, the display unit 15e of the
〔5.実施形態の効果〕
最後に、実施形態の効果について説明する。以下では、実施形態に係る処理に対応する効果1~7について説明する。
5. Effects of the embodiment
Finally, effects of the embodiment will be described below:
(5-1.効果1)
上述した実施形態に係る処理では、質問サイトにおいて投稿された投稿情報を取得し、所定の対象と当該投稿情報とを対応付けた表示情報を選択し、当該表示情報を表示する。このため、本処理では、利用者に対して効率的に情報を提供することができる。
(5-1. Effect 1)
In the process according to the embodiment described above, posted information posted on a question site is acquired, display information in which a predetermined target is associated with the posted information is selected, and the display information is displayed. Therefore, in this process, information can be efficiently provided to users.
(5-2.効果2)
上述した実施形態に係る処理では、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得した投稿情報を分類し、有用性があると分類した投稿情報から、表示情報を選択する。このため、本処理では、所定のサービスにおける分類モデルを用いて、利用者に対して効率的に情報を提供することができる。
(5-2. Effect 2)
In the process according to the embodiment described above, the acquired posted information is classified using a machine learning model that has learned about the posted information and its usefulness in a predetermined service, and display information is selected from the posted information classified as useful. Therefore, in this process, information can be efficiently provided to users using a classification model in a predetermined service.
(5-3.効果3)
上述した実施形態に係る処理では、有用文字列が含まれる投稿情報を表示情報として選択し、非有用文字列が含まれる投稿情報を表示情報として選択しない。このため、本処理では、利用者に対して効率的に効果的な情報を提供することができる。
(5-3. Effect 3)
In the process according to the embodiment described above, posted information including useful character strings is selected as display information, and posted information including non-useful character strings is not selected as display information. Therefore, in this process, it is possible to efficiently provide effective information to users.
(5-4.効果4)
上述した実施形態に係る処理では、就職活動支援サイトにおいて表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、就職活動支援サイトに登録された事業者と投稿情報とを対応付けた表示情報を選択する。このため、本処理では、就職活動支援サイトの利用者に対して効率的に情報を提供することができる。
(5-4. Effect 4)
In the process according to the embodiment described above, display information that associates businesses registered on the job hunting support site with posted information is selected based on useful character strings that are useful when displaying display information on the job hunting support site and/or non-useful character strings that are not useful. Therefore, this process can efficiently provide information to users of the job hunting support site.
(5-5.効果5)
上述した実施形態に係る処理では、機械学習モデルの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデルを用いて出力された分類結果とに基づいて、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、所定の対象を示す対象情報と、当該有用文字列および当該非有用文字列とを対応付けた文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-5. Effect 5)
In the process according to the embodiment described above, useful strings that are useful in a service other than the service to which the posted information is provided and non-useful strings that are not useful are extracted from strings included in the posted information related to a specific target based on the learning data used to train the machine learning model and the classification results output from the posted information related to a specific target using the machine learning model, and string information is generated that associates the useful strings and non-useful strings with target information indicating the specific target. Therefore, in this process, by effectively generating string information for each specific target, it is possible to efficiently provide information to users.
(5-6.効果6)
上述した実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-6. Effect 6)
In the process according to the embodiment described above, a judgment value including the frequency of occurrence or mutual information of a character string is calculated, and character strings whose judgment value is less than a predetermined threshold in positive examples of the learning data, whose judgment value is less than the predetermined threshold in negative examples of the classification result, and whose judgment value is equal to or greater than the predetermined threshold in positive examples of the classification result are extracted as useful character strings, and character string information is generated. Therefore, in this process, by generating character string information including useful character strings effectively for each predetermined target, information can be efficiently provided to users.
(5-7.効果7)
上述した本実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、前記文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に非有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-7. Effect 7)
In the process according to the present embodiment described above, a judgment value including the frequency of occurrence or mutual information of a character string is calculated, and character strings for which the judgment value is less than a predetermined threshold in negative examples of the learning data, the judgment value is less than the predetermined threshold in positive examples of the classification result, and the judgment value is equal to or greater than the predetermined threshold in negative examples of the classification result are extracted as non-useful character strings, and the character string information is generated. Therefore, in this process, by generating character string information including non-useful character strings effectively for each predetermined target, it is possible to efficiently provide information to users.
〔ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置10は、例えば、図7に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置10を例に挙げて説明する。図7は、情報処理装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
[Hardware configuration]
The
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
The
HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
The
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
The
例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部15の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
For example, when the
〔その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。
〔others〕
Although the embodiments of the present application have been described above, the present invention is not limited to the contents of these embodiments. The above-described components include those that can be easily imagined by a person skilled in the art, those that are substantially the same, and those that are within the so-called equivalent range. Furthermore, the above-described components can be appropriately combined. Furthermore, various omissions, substitutions, or modifications of the components can be made without departing from the scope of the gist of the above-described embodiments.
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Furthermore, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically using known methods. In addition, the information including the processing procedures, specific names, various data, and parameters shown in the above documents and drawings can be changed as desired unless otherwise specified. For example, the various information shown in each drawing is not limited to the information shown in the drawings.
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc.
例えば、上述した情報処理装置10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
For example, the
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The above-described embodiments and variations can be combined as appropriate to the extent that they do not cause inconsistencies in the processing content.
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。 The above-mentioned "section, module, unit" can be read as "means" or "circuit." For example, a control unit can be read as a control means or a control circuit.
10 情報処理装置
11 通信部
12 入力部
13 出力部
14 記憶部
14a 収集情報記憶部
14b 処理結果記憶部
14c 学習データ記憶部
14d 学習モデル
15 制御部
15a 取得部
15b 分類部
15c 生成部
15d 選択部
15e 表示部
15f 学習部
20 質問サイト投稿文(投稿情報)
30 就職活動支援サイト表示画面
31 Q&A一覧(表示情報)
100 情報処理システム
REFERENCE SIGNS
30 Job hunting support
100 Information Processing System
Claims (8)
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、
を備え、
前記生成部は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理装置。 a classification unit that classifies the acquired posted information using a machine learning model that has learned about posted information related to a predetermined target and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation unit that extracts useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generates string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Equipped with
the generation unit calculates a judgment value including an appearance frequency of a character string, and generates, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result.
23. An information processing apparatus comprising:
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、a generation unit that extracts useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generates string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
を備え、Equipped with
前記生成部は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generation unit calculates a judgment value including an appearance frequency of a character string, and generates, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than the predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result.
ことを特徴とする情報処理装置。23. An information processing apparatus comprising:
ことを特徴とする請求項1または2に記載の情報処理装置。 the generation unit extracts useful character strings that are useful on the job hunting support site and non-useful character strings that are not useful from character strings included in posted information that is posted on a question site and is related to businesses registered on a job hunting support site, and generates the useful character strings and the non-useful character strings associated with the businesses.
3. The information processing apparatus according to claim 1, wherein the information processing apparatus is a computer.
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 the generation unit generates, as the character string information, information used for selecting posted information to be arranged and displayed within content related to a target when the content is displayed;
4. The information processing apparatus according to claim 1, wherein the information processing apparatus is a computer.
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類工程と、
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、
を含み、
前記生成工程は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理方法。 An information processing method executed by an information processing device,
a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and the usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Including,
the generating step calculates a judgment value including an appearance frequency of a character string, and generates, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result;
23. An information processing method comprising:
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類工程と、a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and the usefulness of the posted information on a second website different from a first website to which the posted information is provided;
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
を含み、Including,
前記生成工程は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generating step calculates a judgment value including an appearance frequency of a character string, and generates, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than a predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result;
ことを特徴とする情報処理方法。23. An information processing method comprising:
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、
をコンピュータに実行させ、
前記生成手順は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理プログラム。 a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for training the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Run the following on your computer :
the generation step includes calculating a judgment value including an appearance frequency of a character string, and generating, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result;
2. An information processing program comprising:
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for training the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
をコンピュータに実行させ、Run the following on your computer:
前記生成手順は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generation step includes calculating a judgment value including an appearance frequency of a character string, and generating, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than a predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result;
ことを特徴とする情報処理プログラム。23. An information processing program comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022024322A JP7485706B2 (en) | 2022-02-18 | 2022-02-18 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022024322A JP7485706B2 (en) | 2022-02-18 | 2022-02-18 | Information processing device, information processing method, and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023121078A JP2023121078A (en) | 2023-08-30 |
JP7485706B2 true JP7485706B2 (en) | 2024-05-16 |
Family
ID=87797467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022024322A Active JP7485706B2 (en) | 2022-02-18 | 2022-02-18 | Information processing device, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7485706B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014099045A (en) | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | Profile estimation device, method, and program |
JP2015090664A (en) | 2013-11-07 | 2015-05-11 | 株式会社Nttドコモ | Information processing device and display priority determination method |
-
2022
- 2022-02-18 JP JP2022024322A patent/JP7485706B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014099045A (en) | 2012-11-14 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | Profile estimation device, method, and program |
JP2015090664A (en) | 2013-11-07 | 2015-05-11 | 株式会社Nttドコモ | Information processing device and display priority determination method |
Also Published As
Publication number | Publication date |
---|---|
JP2023121078A (en) | 2023-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10896214B2 (en) | Artificial intelligence based-document processing | |
Lecompte | Automation in the newsroom: How algorithms are helping reporters expand coverage, engage audiences, and respond to breaking news | |
Vu et al. | Website design and evaluation | |
US20050228767A1 (en) | Method, system and program product for developing a data model in a data mining system | |
Alyousef | A multimodal discourse analysis of the textual and logical relations in marketing texts written by international undergraduate students | |
Kim et al. | Design of contents for ICT literacy in-service training of teachers in Korea | |
JP7290391B2 (en) | Information processing device and program | |
O'Neill et al. | Expert systems in the United Kingdom: an evaluation of development methodologies | |
O'Leary et al. | Computing essentials | |
JP2019125317A (en) | Device, method, and program for processing information | |
JP7485706B2 (en) | Information processing device, information processing method, and information processing program | |
CN112529743A (en) | Contract element extraction method, contract element extraction device, electronic equipment and medium | |
Tuladhar et al. | Predictive analysis of e-commerce products | |
CN112418875A (en) | Cross-platform tax intelligent customer service corpus migration method and device | |
JP7372372B2 (en) | Information processing device, information processing method, and information processing program | |
CN112328812B (en) | Domain knowledge extraction method and system based on self-adjusting parameters and electronic equipment | |
Saifan et al. | Feature location enhancement based on source code augmentation with synonyms of terms | |
Färber | Using a semantic wiki for technology forecast and technology monitoring | |
Wagner | Automated Journalism | |
Sneed | Requirement-based testing-extracting logical test cases from requirement documents | |
Qureshi et al. | Capturing users requirements using a data mining approach | |
Das et al. | Prioritizing Public Grievance Redressal Using Text Mining and Sentimental Analysis | |
Rambola et al. | Development of Novel Evaluating Practices for Subjective Answers Using Natural Language Processing | |
CN117522485B (en) | Advertisement recommendation method, device, equipment and computer readable storage medium | |
Takahashi et al. | An Automatic Coding System with a Three-Grade Confidence Level Corresponding to the National/International Occupation and Industry Standard-Open to the Public on the Web. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7485706 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |