JP7485706B2 - Information processing device, information processing method, and information processing program - Google Patents

Information processing device, information processing method, and information processing program Download PDF

Info

Publication number
JP7485706B2
JP7485706B2 JP2022024322A JP2022024322A JP7485706B2 JP 7485706 B2 JP7485706 B2 JP 7485706B2 JP 2022024322 A JP2022024322 A JP 2022024322A JP 2022024322 A JP2022024322 A JP 2022024322A JP 7485706 B2 JP7485706 B2 JP 7485706B2
Authority
JP
Japan
Prior art keywords
useful
information
strings
information processing
posted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022024322A
Other languages
Japanese (ja)
Other versions
JP2023121078A (en
Inventor
颯太 山城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2022024322A priority Critical patent/JP7485706B2/en
Publication of JP2023121078A publication Critical patent/JP2023121078A/en
Application granted granted Critical
Publication of JP7485706B2 publication Critical patent/JP7485706B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present invention relates to an information processing device, an information processing method, and an information processing program.

インターネット上の求人サービスにおいて、企業を紹介する企業情報詳細ページに対して、Q&A(Question and Answer)サイト(適宜、「質問サイト」)に投稿された企業に関連する質問情報を付加したいことがある。 In an online job search service, it may be necessary to add questions related to a company posted on a Q&A (Question and Answer) site (referred to as a "question site") to a company information detail page that introduces the company.

特開2005-332271号公報JP 2005-332271 A

しかしながら、従来技術は、顧客(適宜、「利用者」)に対して効率的に情報を提供する上で改善の余地がある。例えば、質問サイトへの質問は多岐にわたるので、求人カテゴリの質問だとしても、就職に関連しない質問が投稿されることが多くある。従来技術では、そのような就職に関連しない質問を効率的に除外することが難しい。 However, conventional technology has room for improvement in terms of efficiently providing information to customers (referred to as "users"). For example, because questions posted on question sites are diverse, questions that are not related to employment are often posted, even if they are in the job category. With conventional technology, it is difficult to efficiently filter out such questions that are not related to employment.

本願は、上記に鑑みてなされたものであって、利用者に対して効率的に情報を提供可能にする情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。 The present application has been made in consideration of the above, and aims to provide an information processing device, an information processing method, and an information processing program that enable efficient provision of information to users.

上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、を備えることを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the information processing device according to the present invention is characterized by having a generation unit that extracts useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generates string information that associates target information indicating the target with the useful strings and non-useful strings.

また、本発明に係る情報処理方法は、情報処理装置によって実行される情報処理方法であって、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、を含むことを特徴とする。 The information processing method according to the present invention is an information processing method executed by an information processing device, and is characterized by including a generation step of extracting useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generating string information that associates target information indicating the target with the useful strings and the non-useful strings.

また、本発明に係る情報処理プログラムは、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、をコンピュータに実行させることを特徴とする。 The information processing program according to the present invention is characterized in that it causes a computer to execute a generation procedure for extracting useful strings and non-useful strings that are useful in a service other than the service to which the posted information is provided from strings included in posted information related to a specific target, and generating string information that associates target information indicating the target with the useful strings and non-useful strings.

本発明では、利用者に対して効率的に情報を提供することができる。 The present invention allows information to be provided to users efficiently.

図1は、実施形態に係る情報処理システムの構成例を示す図である。FIG. 1 is a diagram illustrating an example of the configuration of an information processing system according to an embodiment. 図2は、実施形態に係る情報処理装置の構成例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of the configuration of the information processing device according to the embodiment. 図3は、実施形態に係る選択処理の具体例1を示す図である。FIG. 3 is a diagram showing a specific example 1 of the selection process according to the embodiment. 図4は、実施形態に係る選択処理の具体例2を示す図である。FIG. 4 is a diagram showing a second specific example of the selection process according to the embodiment. 図5は、実施形態に係る抽出処理の具体例を示す図である。FIG. 5 is a diagram showing a specific example of the extraction process according to the embodiment. 図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。FIG. 6 is a flowchart showing an example of the flow of information processing according to the embodiment. 図7は、ハードウェア構成の一例を示す図である。FIG. 7 is a diagram illustrating an example of a hardware configuration.

以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、実施形態)について図面を参照しつつ詳細に説明する。なお、この実施形態により、本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。 Below, the information processing device, information processing method, and information processing program according to the present application will be described in detail with reference to the drawings. Note that the information processing device, information processing method, and information processing program according to the present application are not limited to these embodiments. In addition, the same components in the following embodiments will be denoted by the same reference numerals, and duplicated descriptions will be omitted.

〔実施形態〕
以下に、実施形態に係る情報処理システム100の構成、情報処理装置10の構成、情報処理の具体例、情報処理の流れを順に説明し、最後に実施形態の効果を説明する。
[Embodiment]
The configuration of the information processing system 100 according to the embodiment, the configuration of the information processing device 10, a specific example of information processing, and the flow of information processing will be described below in this order, and finally, the effects of the embodiment will be described.

〔1.情報処理システム100の構成〕
図1を用いて、実施形態に係る情報処理システム100の処理を説明する。図1は、実施形態に係る情報処理システム100の構成例を示す図である。以下では、情報処理システム100の構成例、情報処理システム100の処理、情報処理システム100の効果の順に説明する。
1. Configuration of information processing system 100
The processing of the information processing system 100 according to the embodiment will be described with reference to Fig. 1. Fig. 1 is a diagram showing a configuration example of the information processing system 100 according to the embodiment. Below, the configuration example of the information processing system 100, the processing of the information processing system 100, and the effects of the information processing system 100 will be described in that order.

(1-1.情報処理システム100の構成例)
図1に示した情報処理システム100は、情報処理装置10を有する。なお、情報処理システム100には、複数台の情報処理装置10が含まれてもよい。また、情報処理システム100では、情報処理装置10に入力するデータとして、質問サイト投稿文(適宜、「投稿情報」)20、また、情報処理装置10が出力するデータとして、就職活動支援サイト表示画面30上に表示されるQ&A一覧(適宜、「表示情報」)31が関与する。
(1-1. Configuration example of information processing system 100)
1 includes an information processing device 10. The information processing system 100 may include a plurality of information processing devices 10. The information processing system 100 involves data input to the information processing device 10, such as a question site posting (referred to as "posted information") 20, and data output by the information processing device 10, such as a Q&A list (referred to as "display information") 31 displayed on a job hunting support site display screen 30.

(1-1-1.情報処理装置10)
情報処理装置10は、質問サイト投稿文20を収集したり、就職活動支援サイト表示画面30を作成したりする就職活動支援サイトの管理者によって使用されるデバイス(コンピュータ)である。情報処理装置10は、就職活動支援サイトの管理者による操作を受け付ける。なお、情報処理装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。図1の例では、情報処理装置10がデスクトップPCにより実現される場合を示す。
(1-1-1. Information processing device 10)
The information processing device 10 is a device (computer) used by an administrator of a job hunting support site to collect question site posts 20 and create a job hunting support site display screen 30. The information processing device 10 accepts operations by the administrator of the job hunting support site. The information processing device 10 is realized, for example, by a smartphone, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, a PDA (Personal Digital Assistant), or the like. The example of FIG. 1 shows a case where the information processing device 10 is realized by a desktop PC.

(1-1-2.質問サイト投稿文20)
質問サイト投稿文20は、質問サイト上に当該サイトの利用者から投稿された、質問文と当該質問文に対する回答文とを含む文章データである。ここで、質問サイト投稿文20は、質問文のみから構成されるデータであってもよい。また、質問サイト投稿文20は、投稿された質問文と、当該質問文に対する回答文のうち最適の回答文(ベストアンサー)に評価された回答文のみとから構成されるデータであってもよい。さらに、質問サイト投稿文20は、文章データの他、画像データ、動画データまたは音声データを含むものであってもよい。
(1-1-2. Q&A site post 20)
The message 20 posted to the question site is text data posted on the question site by users of the site, and includes a question and a response to the question. Here, the message 20 posted to the question site may be data consisting of only a question. The message 20 posted to the question site may also be data consisting of only a posted question and a response that has been evaluated as the optimal response (best answer) among the responses to the question. Furthermore, the message 20 posted to the question site may include image data, video data, or audio data in addition to text data.

(1-1-3.就職活動支援サイト表示画面30)
就職活動支援サイト表示画面30は、当該就職活動支援サイトに登録された企業(適宜、「事業者」)ごとに作成されたウェブページであり、Q&A一覧31の他、企業概要や求人、年収・給与等に関する情報も含まれる。
(1-1-3. Job hunting support site display screen 30)
The job hunting support site display screen 30 is a web page created for each company (or "business" as appropriate) registered on the job hunting support site, and includes, in addition to a Q&A list 31, information regarding company overview, job openings, annual income/salary, etc.

(1-2.情報処理システム100の処理)
情報処理システム100において、まず、情報処理装置10の操作者は、質問サイト投稿文20の入力処理を実行する(図1(1)参照)。次に、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する情報処理を実行する(図1(2)参照)。最後に、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30の出力処理を実行する(図1(3)参照)。以下では、情報処理システム100の処理について、入力処理、情報処理、出力処理の順に詳細に説明する。
(1-2. Processing of Information Processing System 100)
In the information processing system 100, first, an operator of the information processing device 10 executes an input process for a message 20 posted to a question site (see FIG. 1 (1)). Next, the information processing device 10 executes an information process for generating a Q&A list 31 from the message 20 posted to the question site (see FIG. 1 (2)). Finally, the information processing device 10 executes an output process for a job hunting support site display screen 30 including the Q&A list 31 (see FIG. 1 (3)). Below, the processing of the information processing system 100 will be described in detail in the order of input processing, information processing, and output processing.

(1-2-1.入力処理)
図1(1)に示すように、情報処理装置10は、操作者から質問サイト投稿文20の入力を受け付け、入力データを取得する。このとき、情報処理装置10は、図示しない端末から送信された質問サイト投稿文20を、情報処理装置10の通信部11を介して入力を受け付けてもよい。
(1-2-1. Input Processing)
1(1), the information processing device 10 receives an input of a message 20 posted to a question site from an operator and acquires input data. At this time, the information processing device 10 may receive an input of the message 20 posted to a question site transmitted from a terminal (not shown) via the communication unit 11 of the information processing device 10.

(1-2-2.情報処理)
図1(2)に示すように、情報処理装置10は、質問サイト投稿文20からQ&A一覧31を生成する。以下では、当該情報処理について、投稿情報分類処理、文字列情報生成処理、投稿情報選択処理の順に詳細に説明する。
(1-2-2. Information Processing)
1B, the information processing device 10 generates a Q&A list 31 from the questions posted on the question site 20. The information processing will be described in detail below in the order of the posted information classification process, the character string information generation process, and the posted information selection process.

(1-2-2-1.投稿情報分類処理)
図1(2-1)に示すように、情報処理装置10は、機械学習モデルである分類モデル(適宜、「学習モデル」)14dを用いて、入力された質問サイト投稿文20を分類する処理を行う(投稿情報分類処理)。このとき、情報処理装置10は、収集された質問文に対して当該質問文が就職に関連する有用な情報であるか否かのラベルが付与されたアノテーションデータ(適宜、「学習データ」)によって学習したDNN(Deep Neural Network)等の分類モデル14dを用いて、入力された質問サイト投稿文20を分類する処理を行う。図1の例に示すように、情報処理装置10は、質問サイト投稿文20が入力されると、質問文ごとに有用性の判定結果を示した分類リスト14b-1を分類結果として出力する。
(1-2-2-1. Posted Information Classification Processing)
As shown in FIG. 1 (2-1), the information processing device 10 performs a process of classifying the inputted question site posted message 20 using a classification model (appropriately, "learning model") 14d, which is a machine learning model (posted information classification process). At this time, the information processing device 10 performs a process of classifying the inputted question site posted message 20 using a classification model 14d such as a deep neural network (DNN) that has been trained using annotation data (appropriately, "learning data") in which collected questions are labeled with whether or not the questions are useful information related to employment. As shown in the example of FIG. 1, when the question site posted message 20 is inputted, the information processing device 10 outputs a classification list 14b-1 indicating the usefulness judgment result for each question as a classification result.

図1の例を用いて説明すると、情報処理装置10は、質問サイト投稿文20に記載されたNo.1の質問文「Z社って外資企業?」について、企業名「Z社」やキーワード「外資企業」をもとに、就職関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.2の質問文「Y社・R社の年収は?」について、企業名「Y社」、「R社」やキーワード「年収」をもとに、就職関連の質問文として分類する。 Explaining using the example of FIG. 1, the information processing device 10 classifies question No. 1 posted on the question site post 20, "Is Company Z a foreign-owned company?", as a question related to employment based on the company name "Company Z" and the keyword "foreign-owned company." The information processing device 10 also classifies question No. 2 posted on the question site post 20, "What are the annual salaries at Company Y and Company R?", as a question related to employment based on the company names "Company Y" and "Company R" and the keyword "annual salary."

一方、情報処理装置10は、質問サイト投稿文20に記載されたNo.3の質問文「L社のアプリは便利?」について、企業名「L社」が含まれているがアプリ開発会社である「L社」の商品についての質問文であるので、就職非関連の質問文として分類する。また、情報処理装置10は、質問サイト投稿文20に記載されたNo.4の質問文「U社の服で面接行っていい?」について、企業名「U社」が含まれているが衣服販売会社「U社」の商品についての質問文であるので、就職非関連の質問文として分類する。 On the other hand, the information processing device 10 classifies question No. 3 in the question site posting 20, "Is Company L's app convenient?", as a question not related to employment because it contains the company name "Company L" but is a question about a product of "Company L", an app development company. Also, the information processing device 10 classifies question No. 4 in the question site posting 20, "Can I wear Company U's clothes to the interview?", as a question not related to employment because it contains the company name "Company U" but is a question about a product of clothing sales company "Company U".

情報処理装置10は、上記の分類モデル14dによる分類結果として、No.1の質問文「○」、No.2の質問文「○」、No.3の質問文「×」、No.4の質問文「×」・・・の、就職に関する有用判定を記載した分類リスト14b-1を出力する。 The information processing device 10 outputs a classification list 14b-1 that lists the employment-related usefulness judgments for question No. 1 "○", question No. 2 "○", question No. 3 "×", question No. 4 "×", etc., as a classification result based on the above classification model 14d.

(1-2-2-2.文字列情報生成処理)
図1(2-2)に示すように、情報処理装置10は、後述するキーワードマッチに用いるキーワード辞書(適宜、「文字列情報」)14b-2を生成する処理を行う(文字列情報生成処理)。ここで、キーワード辞書14b-2とは、企業ごとに作成された所定のサービス(例:就職、会社説明、金融等の支援サイト)に関する有用な情報であるか否かの判断に用いるキーワードをリスト化したものである。キーワード辞書14b-2にリスト化されるキーワードには、企業名に関するキーワード(以下、「企業名キーワード」)の他、上記サービスに質問文を表示する際に有用である有用キーワード(適宜、「有用文字列」)と、上記サービスに質問文を表示する際に有用でない非有用キーワード(適宜、「非有用文字列」)とが含まれる。
(1-2-2-2. Character String Information Generation Process)
As shown in FIG. 1 (2-2), the information processing device 10 performs a process of generating a keyword dictionary (suitably referred to as "character string information") 14b-2 used for keyword matching (described later) (character string information generation process). Here, the keyword dictionary 14b-2 is a list of keywords used to determine whether information is useful for a specific service (e.g., a support site for employment, company information, finance, etc.) created for each company. The keywords listed in the keyword dictionary 14b-2 include keywords related to company names (hereinafter, "company name keywords"), as well as useful keywords (suitably referred to as "useful character strings") that are useful when displaying a question on the above service, and non-useful keywords (suitably referred to as "non-useful character strings") that are not useful when displaying a question on the above service.

ここで、企業名キーワードのリスト化について説明する。情報処理装置10は、企業名のカタログ等である企業名データベースから企業の正式名称と、企業IDとを取得する。例えば、情報処理装置10は、企業である「Y社」の正式名称「Y株式会社」と、企業ID「23」とを取得し、「Y株式会社」と「23」とを紐づけしたキーワード辞書14b-2を生成する。次に、情報処理装置10は、インターネット百科事典等の外部リソースが保持する情報(適宜、「外部リソース情報」)を取得し、上記のキーワード辞書14b-2に対して企業名の表記ゆれを追加する。例えば、情報処理装置10は、上記の外部リソース情報として、住所、創立年月日、社長の名前、従業員数の情報をもとに、「Y株式会社」が「Y社」、「Y」、「Yジャパン」等で表記されることを対応付ける。 Here, we will explain how to list company name keywords. The information processing device 10 acquires the official name of a company and the company ID from a company name database, which is a catalog of company names. For example, the information processing device 10 acquires the official name of a company "Y Co., Ltd.", "Y Co., Ltd.", and the company ID "23," and generates a keyword dictionary 14b-2 that links "Y Co., Ltd." and "23." Next, the information processing device 10 acquires information held by an external resource such as an Internet encyclopedia ("external resource information" as appropriate), and adds variations in the spelling of the company name to the above keyword dictionary 14b-2. For example, the information processing device 10 associates "Y Co., Ltd." with being spelled as "Y Co., Ltd.", "Y," "Y Japan," etc., based on information such as the address, date of establishment, name of the president, and number of employees as the above external resource information.

次に、有用キーワードおよび非有用キーワードのリスト化について説明する。ここで、有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用である可能性が高いことを示す文字列である。例えば、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードとして「求人」等がある。一方、非有用キーワードは、企業ごとに抽出された文字列であって、当該文字列を含む質問文が所定のサービスに有用でない可能性が高いことを示す文字列である。例えば、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードとして「アップデート」等がある。 Next, we will explain how to list useful keywords and non-useful keywords. Here, useful keywords are character strings extracted for each company, and are character strings that indicate that questions containing the character string are likely to be useful for a specified service. For example, a useful keyword included in an employment-related question from a workwear sales company, "Company W," is "job openings." On the other hand, non-useful keywords are character strings extracted for each company, and are character strings that indicate that questions containing the character string are likely not useful for a specified service. For example, a non-useful keyword included in a non-employment-related question from a software development company, "Company M," is "update."

情報処理装置10は、就職に関する有用キーワードおよび非有用キーワードをリスト化する場合には、就職に関するアノテーションデータによって学習した分類モデル14dを用いて、収集された特定の企業名を含んだラベルなし質問文を分類することによって仮ラベル付けを行う。例えば、情報処理装置10は、「Y社」に関するキーワード辞書14b-2を作成する場合には、「Y社」の企業名を含んだラベルなし質問文の入力を受け付け、就職に関する分類モデル14dを用いて、就職関連または就職非関連の仮ラベルが付与された質問文である仮ラベルデータを出力する。 When creating a list of useful and unuseful keywords related to employment, the information processing device 10 uses the classification model 14d learned from annotation data related to employment to temporarily label collected unlabeled questions that include specific company names. For example, when creating a keyword dictionary 14b-2 related to "Company Y," the information processing device 10 accepts input of an unlabeled question that includes the company name "Company Y," and uses the classification model 14d related to employment to output temporary label data that is a question that has been assigned a temporary label of employment-related or non-employment-related.

続いて、情報処理装置10は、アノテーションデータの正例および仮ラベルデータの負例にはあまり含まれず、仮ラベルデータの正例には比較的多く含まれる単語を有用キーワードとして抽出する。一方、情報処理装置10は、アノテーションデータの負例および仮ラベルデータの正例にはあまり含まれず、仮ラベルデータの負例には比較的多く含まれる単語を非有用キーワードとして抽出する。このとき、情報処理装置10は、単語の出現頻度や相互情報量に基づいて、有用キーワードおよび非有用キーワードを抽出する。また、情報処理装置10は、質問文に含まれる文字列の品詞を判定し、特定の品詞(例:名詞)のみを抽出してもよい。 Then, the information processing device 10 extracts, as useful keywords, words that are not often included in the positive examples of the annotation data and the negative examples of the temporary label data, and are relatively frequently included in the positive examples of the temporary label data. On the other hand, the information processing device 10 extracts, as non-useful keywords, words that are not often included in the negative examples of the annotation data and the positive examples of the temporary label data, and are relatively frequently included in the negative examples of the temporary label data. At this time, the information processing device 10 extracts useful keywords and non-useful keywords based on the frequency of appearance of the words and the amount of mutual information. The information processing device 10 may also determine the part of speech of the character string included in the question sentence, and extract only a specific part of speech (e.g., nouns).

最後に、情報処理装置10は、抽出した有用キーワードおよび非有用キーワードを、企業名や企業IDと紐づけしたキーワード辞書14b-2を生成する。このとき、情報処理装置10は、企業ごとに生成されたキーワード辞書14b-2をもとに、企業のカテゴリで共通する有用キーワードおよび非有用キーワードを抽出してもよいし、すべての企業で共通する汎用的な有用キーワードおよび非有用キーワードを抽出してもよい。 Finally, the information processing device 10 generates a keyword dictionary 14b-2 that links the extracted useful and unuseful keywords with company names and company IDs. At this time, the information processing device 10 may extract useful and unuseful keywords that are common to a company category based on the keyword dictionary 14b-2 generated for each company, or may extract general-purpose useful and unuseful keywords that are common to all companies.

(1-2-2-3.投稿情報選択処理)
図1(2-3)に示すように、情報処理装置10は、キーワード辞書14b-2を用いて、質問サイト投稿文20の質問文のキーワードマッチを行う(投稿情報選択処理)。このとき、情報処理装置10は、キーワード辞書14b-2に記載されている企業名キーワードをもとに、質問文と企業IDとを紐づけしたキーワードマッチ結果(選択結果)である選択リスト14b-3を出力する。
(1-2-2-3. Posted Information Selection Process)
1 (2-3), the information processing device 10 uses the keyword dictionary 14b-2 to perform keyword matching of the question text posted to the question site 20 (posted information selection process). At this time, the information processing device 10 outputs a selection list 14b-3, which is a keyword matching result (selection result) that links the question text with a company ID based on the company name keywords written in the keyword dictionary 14b-2.

また、情報処理装置10は、分類結果である分類リスト14b-1をもとに、選択リスト14b-3から質問文を削除する。例えば、情報処理装置10は、選択リスト14b-3に記載されたNo.1~No.4の質問文のうち、分類リスト14b-1において有用判定が「×」であるNo.3およびNo.4の質問文を削除する。 In addition, the information processing device 10 deletes questions from the selection list 14b-3 based on the classification list 14b-1, which is the classification result. For example, the information processing device 10 deletes questions No. 3 and No. 4, which have a usefulness judgment of "x" in the classification list 14b-1, from among questions No. 1 to No. 4 listed in the selection list 14b-3.

さらに、情報処理装置10は、キーワード辞書14b-2に記載されている有用キーワードおよび非有用キーワードをもとに、選択リスト14b-3における質問文と企業IDとの紐づけを変更する。例えば、情報処理装置10は、有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、情報処理装置10は、非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、情報処理装置10は、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、情報処理装置10は、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。 Furthermore, the information processing device 10 changes the link between the question sentence and the company ID in the selection list 14b-3 based on the useful keywords and unuseful keywords listed in the keyword dictionary 14b-2. For example, if there is a question sentence that is linked to a company ID among the question sentences that do not contain a useful keyword, the information processing device 10 removes the link from the company ID. On the other hand, if there is a question sentence that is linked to a company ID among the question sentences that contain a unuseful keyword, the information processing device 10 removes the link from the company ID. At this time, the information processing device 10 can execute the selection process using either the useful keyword or the unuseful keyword. In other words, if there is a question sentence that contains both a useful keyword and an unuseful keyword, the information processing device 10 may give priority to linking the useful keyword, or may give priority to removing the unuseful keyword from the link.

上述してきた処理によって、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3を、就職活動支援サイト表示画面30に表示する表示情報であるQ&A一覧31として出力する。例えば、情報処理装置10は、「Y社」の就職活動支援サイト表示画面30に表示するQ&A一覧31として、「Y社の年収はどのくらいなのでしょうか?」の質問文および回答文を出力する。 By the above-mentioned process, the information processing device 10 outputs the selection list 14b-3, which is the selection result created for each company, as a Q&A list 31, which is display information to be displayed on the job hunting support site display screen 30. For example, the information processing device 10 outputs the question "How much is the annual salary at Company Y?" and the answer as the Q&A list 31 to be displayed on the job hunting support site display screen 30 for "Company Y."

また、情報処理装置10は、企業ごとに作成した選択結果である選択リスト14b-3をもとに、同様の質問文が投稿された企業に関する情報を表示情報として出力することもできる。例えば、情報処理装置10は、「年収はどのくらいなのでしょうか?」の質問文が投稿されている「Y社」以外の企業として「R社」を出力することもできる。 The information processing device 10 can also output, as display information, information about companies to which similar questions have been posted, based on a selection list 14b-3, which is a selection result created for each company. For example, the information processing device 10 can output "Company R" as a company other than "Company Y" to which the question "How much is the annual salary?" has been posted.

(1-2-3.出力処理)
図1(3)に示すように、情報処理装置10は、Q&A一覧31を含む就職活動支援サイト表示画面30を出力する(図1(3)参照)。このとき、情報処理装置10は、出力した表示情報であるQ&A一覧31を、通信部11を介して図示しない端末に送信してもよい。
(1-2-3. Output processing)
As shown in Fig. 1 (3), the information processing device 10 outputs a job hunting support site display screen 30 including a Q&A list 31 (see Fig. 1 (3)). At this time, the information processing device 10 may transmit the Q&A list 31, which is the output display information, to a terminal (not shown) via the communication unit 11.

(1-3.情報処理システム100の効果)
情報処理システム100の効果について、有用キーワードおよび非有用キーワードを使用しない技術での問題点を具体的に説明した上で、詳細に説明する。
(1-3. Effects of Information Processing System 100)
The effects of the information processing system 100 will be described in detail after specifically explaining the problems with the technology that does not use useful keywords and unuseful keywords.

(1-3-1.問題点)
まず、有用キーワードおよび非有用キーワードを使用しない技術、すなわち所定のサービスごとに学習された分類モデル14dによる分類処理の問題点について説明する。例えば、就職に関する分類モデル14dを用いて、質問文「M社の提供する○○のような資格を取るとY社の就職に有利?」を分類することを考える。分類モデル14dによる分類処理では、「資格」、「就職」の単語に反応し、就職関連の質問文であると判定する。しかしながら、上記の分類処理では、「M社」、「Y社」の企業名に反応し、「M社」および「Y社」の就職関連の質問文と判定してしまう。ここで、資格名「○○」は、「M社」が提供する資格であるので、「M社」の就職関連の質問文として分類することは適切ではない。上記の例であれば、資格名「○○」および「資格」の単語が含まれる質問文は「M社」とは紐づけせず、「Y社」とは紐づけすることが好ましい。一方、上記の問題点を解消するために、「M社」や「Y社」等の各企業専用の就職関連の分類モデル14dを作成し、分類処理に用いることも難しい。
(1-3-1. Issues)
First, a problem with the classification process using a technology that does not use useful keywords and non-useful keywords, that is, a classification model 14d trained for each predetermined service, will be described. For example, consider classifying a question "If I obtain a qualification such as XX provided by Company M, will it be advantageous to get a job at Company Y?" using the classification model 14d related to employment. In the classification process using the classification model 14d, it reacts to the words "qualification" and "employment" and determines that the question is related to employment. However, in the above classification process, it reacts to the company names "Company M" and "Company Y" and determines that the question is related to employment at "Company M" and "Company Y". Here, since the qualification name "XX" is a qualification provided by "Company M", it is not appropriate to classify it as a question related to employment at "Company M". In the above example, it is preferable that a question containing the qualification name "XX" and the word "qualification" is not linked to "Company M" but is linked to "Company Y". On the other hand, in order to solve the above problem, it is difficult to create a classification model 14d related to employment for each company such as "Company M" and "Company Y" and use it in the classification process.

以上のように、企業によってその質問が就職に関連するか否かの基準は違うので、汎用の分類モデル14dの分類処理のみで就職活動支援サイトに表示するQ&A一覧31を作成することは困難である。そこで、実施形態に係る情報処理システム100では、上記の分類モデル14dの分類処理に加えて、企業ごとの有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を作成し、当該キーワード辞書14b-2を用いてQ&A一覧31を選択することによって、上記の問題点を解消する。 As described above, different companies have different standards for whether a question is relevant to employment, so it is difficult to create a Q&A list 31 to be displayed on a job hunting support site using only the classification process of the general-purpose classification model 14d. Therefore, in the information processing system 100 according to the embodiment, in addition to the classification process of the classification model 14d, a keyword dictionary 14b-2 containing useful and unuseful keywords for each company is created, and the keyword dictionary 14b-2 is used to select the Q&A list 31, thereby resolving the above problem.

(1-3-2.概要)
情報処理システム100では、情報処理装置10は、質問サイトにおいて投稿された質問サイト投稿文20を取得し、就職活動支援サイトにおいてQ&A一覧31を表示する際に有用である有用キーワード、および有用でない非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された企業ごとに、質問サイト投稿文20から就職活動支援サイトに表示するQ&A一覧31を選択し、当該Q&A一覧31を表示する。このとき、情報処理装置10は、質問サイト投稿文20と就職活動支援サイトにおける有用性とを学習した分類モデル14dを用いて、取得された質問サイト投稿文20を分類し、有用性があると分類された質問サイト投稿文20から、Q&A一覧31に表示する質問文を選択する。さらに、情報処理装置10は、企業に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、企業を示す企業IDと、有用キーワードおよび非有用キーワードとを対応付けたキーワード辞書14b-2を生成する。
(1-3-2. Overview)
In the information processing system 100, the information processing device 10 acquires the question site posted text 20 posted on the question site, and selects the Q&A list 31 to be displayed on the job hunting support site from the question site posted text 20 for each company registered on the job hunting support site based on at least one of useful keywords that are useful when displaying the Q&A list 31 on the job hunting support site and unuseful keywords that are not useful, and displays the Q&A list 31. At this time, the information processing device 10 classifies the acquired question site posted text 20 using a classification model 14d that has learned the question site posted text 20 and its usefulness on the job hunting support site, and selects a question to be displayed on the Q&A list 31 from the question site posted text 20 classified as useful. Furthermore, the information processing device 10 extracts useful keywords that are useful on the job hunting support site and unuseful keywords that are not useful from among words included in the question site posted text 20 related to the company, and generates a keyword dictionary 14b-2 in which a company ID indicating the company is associated with the useful keywords and unuseful keywords.

(1-3-3.効果)
このため、情報処理システム100では、利用者に対して効率的に情報を提供することができる。すなわち、情報処理システム100では、就職活動支援サイトの利用者が閲覧するQ&A一覧31を効率的に作成することができる。また、情報処理システム100では、上記のQ&A一覧31を作成するための有用キーワードおよび非有用キーワードを含むキーワード辞書14b-2を自動生成することができるので、さらにQ&A一覧31を効率的に、かつ効果的に作成することができる。
(1-3-3. Effects)
Therefore, the information processing system 100 can efficiently provide information to users. That is, the information processing system 100 can efficiently create the Q&A list 31 to be viewed by users of the job hunting support site. Furthermore, the information processing system 100 can automatically generate the keyword dictionary 14b-2 including useful keywords and non-useful keywords for creating the above-mentioned Q&A list 31, so that the Q&A list 31 can be created more efficiently and effectively.

〔2.情報処理装置10の構成〕
図2を用いて、実施形態に係る情報処理装置10の構成について説明する。図2は、実施形態に係る情報処理装置10の構成例を示すブロック図である。図2に示すように、情報処理装置10は、通信部11、入力部12、出力部13、記憶部14および制御部15を有する。
2. Configuration of information processing device 10
The configuration of the information processing device 10 according to the embodiment will be described with reference to Fig. 2. Fig. 2 is a block diagram showing an example of the configuration of the information processing device 10 according to the embodiment. As shown in Fig. 2, the information processing device 10 has a communication unit 11, an input unit 12, an output unit 13, a storage unit 14, and a control unit 15.

(2-1.通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、所定の通信網(ネットワーク)と有線または無線で接続され、各種装置との間で情報の送受信を行う。
(2-1. Communication Unit 11)
The communication unit 11 is realized by, for example, a network interface card (NIC) etc. The communication unit 11 is connected to a predetermined communication network by wire or wirelessly, and transmits and receives information to and from various devices.

(2-2.入力部12)
入力部12は、例えば、キーボードやマウス等で実現される。そして、入力部12は、情報処理装置10の管理者等から各種操作を受け付ける。例えば、入力部12は、情報処理装置10の管理者等から質問サイト投稿文20の入力を受け付ける。
(2-2. Input unit 12)
The input unit 12 is realized by, for example, a keyboard, a mouse, etc. The input unit 12 accepts various operations from an administrator or the like of the information processing device 10. For example, the input unit 12 accepts input of a question site post 20 from an administrator or the like of the information processing device 10.

(2-3.出力部13)
出力部13は、例えば、液晶ディスプレイ等で実現される。そして、出力部13は、各種情報を表示する。例えば、出力部13は、情報処理装置10の制御部15によって生成された就職活動支援サイト表示画面30を表示する。
(2-3. Output unit 13)
The output unit 13 is realized by, for example, a liquid crystal display, etc. The output unit 13 displays various information. For example, the output unit 13 displays a job hunting support site display screen 30 generated by the control unit 15 of the information processing device 10.

(2-4.記憶部14)
記憶部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部14は、図2に示すように、収集情報記憶部14a、処理結果記憶部14b、学習データ記憶部14cおよび学習モデル14dを有する。そして、記憶部14は、制御部15が動作する際に参照する各種情報や、制御部15が動作した際に取得した各種情報を記憶する。
(2-4. Storage unit 14)
The storage unit 14 is realized by, for example, a semiconductor memory element such as a random access memory (RAM) or a flash memory, or a storage device such as a hard disk or an optical disk. As shown in Fig. 2, the storage unit 14 according to the embodiment has a collected information storage unit 14a, a processing result storage unit 14b, a learning data storage unit 14c, and a learning model 14d. The storage unit 14 stores various pieces of information referenced when the control unit 15 operates and various pieces of information acquired when the control unit 15 operates.

(2-4-1.収集情報記憶部14a)
収集情報記憶部14aは、情報処理装置10の取得部15aによって取得された収集情報を記憶する。例えば、収集情報記憶部14aは、質問サイトサーバから取得した質問サイト投稿文20である投稿情報、企業名データベースから取得した企業の情報である事業者情報、インターネット百科事典等の外部リソースから取得した外部リソース情報等を記憶する。
(2-4-1. Collected information storage unit 14a)
The collected information storage unit 14a stores collected information acquired by the acquisition unit 15a of the information processing device 10. For example, the collected information storage unit 14a stores posted information which is the question site posted message 20 acquired from a question site server, business information which is information on a business acquired from a business name database, external resource information acquired from an external resource such as an Internet encyclopedia, and the like.

(2-4-2.処理結果記憶部14b)
処理結果記憶部14bは、情報処理装置10の分類部15b、生成部15cおよび選択部15dによって出力された処理結果を記憶する。例えば、処理結果記憶部14bは、分類結果である分類部15bによって出力された分類リスト14b-1、生成結果である生成部15cによって出力されたキーワード辞書(文字列情報)14b-2、選択結果である選択部15dによって出力された選択リスト14b-3等を記憶する。また、処理結果記憶部14bは、表示部15eが表示するQ&A一覧(表示情報)31を記憶してもよい。
(2-4-2. Processing result storage unit 14b)
The processing result storage unit 14b stores the processing results output by the classification unit 15b, the generation unit 15c, and the selection unit 15d of the information processing device 10. For example, the processing result storage unit 14b stores a classification list 14b-1 output by the classification unit 15b, which is the classification result, a keyword dictionary (character string information) 14b-2 output by the generation unit 15c, which is the generation result, and a selection list 14b-3 output by the selection unit 15d, which is the selection result. The processing result storage unit 14b may also store a Q&A list (display information) 31 displayed by the display unit 15e.

(2-4-3.学習データ記憶部14c)
学習データ記憶部14cは、機械学習モデルの学習を行うための学習データを記憶する。例えば、学習データ記憶部14cは、学習データ「入力データ、正解情報」として「質問サイト投稿文、就職に関する有用判定」等の機械学習モデル14dに入力するためのラベル付きのアノテーションデータを記憶する。
(2-4-3. Learning Data Storage Unit 14c)
The learning data storage unit 14c stores learning data for learning the machine learning model. For example, the learning data storage unit 14c stores labeled annotation data such as "text posted on a Q&A site, usefulness judgment regarding employment" as learning data "input data, correct answer information" to be input to the machine learning model 14d.

(2-4-4.学習モデル14d)
学習モデル14dは、質問サイト投稿文20の入力に応じて就職に関する有用判定を出力するように学習された、単語ベースの線形分類モデルである。例えば、学習モデル14dは、学習データ記憶部14cに記憶される就職に関するアノテーションデータを用いて生成された学習済みモデルである。
(2-4-4. Learning model 14d)
The learning model 14d is a word-based linear classification model that is trained to output a useful judgment regarding employment in response to an input of a question site post 20. For example, the learning model 14d is a trained model generated using annotation data regarding employment stored in the learning data storage unit 14c.

(2-5.制御部15)
制御部15は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部15は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
(2-5. Control Unit 15)
The control unit 15 is realized, for example, by a CPU (Central Processing Unit) or an MPU (Micro Processing Unit) executing various programs (corresponding to an example of an information processing program) stored in a storage device inside the information processing device 10 using a RAM as a working area. The control unit 15 is also realized, for example, by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).

図2に示すように、制御部15は、取得部15a、分類部15b、生成部15c、選択部15d、表示部15eおよび学習部15fを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、図2に示した接続関係に限られず、他の接続関係であってもよい。 As shown in FIG. 2, the control unit 15 has an acquisition unit 15a, a classification unit 15b, a generation unit 15c, a selection unit 15d, a display unit 15e, and a learning unit 15f, and realizes or executes the functions and actions of the information processing described below. Note that the internal configuration of the control unit 15 is not limited to the configuration shown in FIG. 2, and may be other configurations as long as they perform the information processing described below. Also, the connection relationships between the processing units in the control unit 15 are not limited to the connection relationships shown in FIG. 2, and may be other connection relationships.

(2-5-1.取得部15a)
取得部15aは、質問サイトにおいて投稿された投稿情報を取得する。例えば、取得部15aは、質問サイトを管理するサーバから、投稿情報である質問サイト投稿文20を取得する。また、取得部15aは、企業名データベースから、企業の情報である事業者情報を取得する。また、取得部15aは、インターネット百科事典等の外部リソースから、外部リソース情報を取得する。
(2-5-1. Acquisition unit 15a)
The acquisition unit 15a acquires posted information posted on the question site. For example, the acquisition unit 15a acquires posted messages 20 on the question site, which are posted information, from a server that manages the question site. The acquisition unit 15a also acquires company information, which is company information, from a company name database. The acquisition unit 15a also acquires external resource information from external resources such as Internet encyclopedias.

なお、取得部15aは、取得した投稿情報、事業者情報および外部リソース情報を収集情報記憶部14aに格納する。 The acquisition unit 15a collects and stores the acquired post information, business information, and external resource information in the information storage unit 14a.

(2-5-2.分類部15b)
分類部15bは、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデル14dを用いて、取得された投稿情報を分類する。例えば、分類部15bは、質問サイト投稿文20と就職活動支援サイトにおける有用性とをアノテーションデータを用いて学習した分類モデル14dを用いて、取得された質問サイト投稿文20を「就職関連」または「就職非関連」のいずれかに分類する。
(2-5-2. Classification unit 15b)
The classification unit 15b classifies the acquired posted information using the machine learning model 14d that has learned about the posted information and its usefulness in a predetermined service. For example, the classification unit 15b classifies the acquired question site posted message 20 into either "employment-related" or "non-employment-related" using the classification model 14d that has learned about the question site posted message 20 and its usefulness in a job-hunting support site using annotation data.

なお、分類部15bは、分類対象となる質問サイト投稿文20を収集情報記憶部14aから取得する。一方、分類部15bは、分類結果である質問文ごとに有用判定が示された分類リスト14b-1を処理結果記憶部14bに格納する。 The classification unit 15b acquires the question site posts 20 to be classified from the collected information storage unit 14a. Meanwhile, the classification unit 15b stores in the processing result storage unit 14b a classification list 14b-1 in which the usefulness judgment is indicated for each question, which is the classification result.

(2-5-3.生成部15c)
生成部15cは、機械学習モデル14dの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデル14dを用いて出力された分類結果とに基づいて、当該対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列(有用キーワード)、および有用でない非有用文字列(非有用キーワード)を抽出し、当該対象を示す対象情報と、有用文字列および非有用文字列とを対応付けた文字列情報を生成する。例えば、生成部15cは、文字列情報として、対象に関するコンテンツを表示する際に、当該コンテンツ内に配置して表示する投稿情報の選択に用いられる情報を生成する。
(2-5-3. Generation unit 15c)
The generation unit 15c extracts useful strings (useful keywords) that are useful in a service other than the service to which the posted information is provided, and non-useful strings (non-useful keywords) that are not useful, from among strings included in the posted information related to a specific target, based on learning data used for training the machine learning model 14d and the classification result output by using the machine learning model 14d from the posted information related to the target, and generates string information in which target information indicating the target is associated with the useful strings and the non-useful strings. For example, the generation unit 15c generates, as the string information, information used to select posted information to be placed and displayed in content related to the target when the content is displayed.

具体的な例を挙げて説明すると、生成部15cは、就職に関する分類モデル14dの学習に用いるアノテーションデータと、企業「Y社」に関連する質問サイト投稿文20から分類モデル14dを用いて出力された分類リスト14b-1とに基づいて、「Y社」に関連する質問サイト投稿文20に含まれる単語のうち、就職活動支援サイトにおいて有用である有用キーワード、および有用でない非有用キーワードを抽出し、「Y社」を示す企業ID「23」と、有用キーワードおよび非有用キーワードとを対応付けた選択リスト14b-3を生成する。 To explain this with a specific example, the generation unit 15c extracts useful keywords that are useful on a job hunting support site and unuseful keywords that are not useful from among the words contained in the questions site posts 20 related to "Company Y" based on the annotation data used to train the employment-related classification model 14d and the classification list 14b-1 output from the classification model 14d from the questions site posts 20 related to the company "Company Y." The generation unit 15c then generates a selection list 14b-3 that associates the company ID "23" indicating "Company Y" with the useful keywords and unuseful keywords.

有用キーワードおよび非有用キーワードの抽出処理について説明すると、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。 Explaining the process of extracting useful keywords and non-useful keywords, the generation unit 15c calculates a judgment value including the frequency of occurrence or mutual information of a string, extracts as useful strings strings whose judgment values are less than a predetermined threshold in positive examples of the learning data, whose judgment values are less than the predetermined threshold in negative examples of the classification results, and whose judgment values are equal to or greater than the predetermined threshold in positive examples of the classification results, and generates string information. That is, the generation unit 15c extracts words that are rare in questions indicating employment-related matters at all companies and that are significantly more common in questions indicating employment-related matters at a specific company, as useful keywords that are employment-related keywords that indicate the characteristics of each company.

一方、生成部15cは、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、文字列情報を生成する。すなわち、生成部15cは、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。 Meanwhile, the generation unit 15c calculates a judgment value including the frequency of occurrence or mutual information of a string, extracts strings whose judgment value is less than a predetermined threshold in negative examples of the learning data, whose judgment value is less than the predetermined threshold in positive examples of the classification results, and whose judgment value is equal to or greater than the predetermined threshold in negative examples of the classification results, as non-useful strings, and generates string information. That is, the generation unit 15c extracts words that are rare in questions indicating non-employment-related topics at all companies and that are significantly more common in questions indicating non-employment-related topics at a specific company, as non-useful keywords that are non-employment-related keywords that indicate the characteristics of each company.

なお、生成部15cは、学習データであるアノテーションデータを学習データ記憶部14cから取得する。また、生成部15cは、所定の対象に関連する投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。一方、生成部15cは、生成結果の文字列情報であるキーワード辞書14b-2を処理結果記憶部14bに格納する。 The generation unit 15c acquires annotation data, which is learning data, from the learning data storage unit 14c. The generation unit 15c also acquires questions site posts 20, which are posted information related to a specific target, from the collected information storage unit 14a. Meanwhile, the generation unit 15c stores keyword dictionary 14b-2, which is character string information of the generated result, in the processing result storage unit 14b.

(2-5-4.選択部15d)
選択部15dは、所定のサービスにおいて投稿情報に関する表示情報を表示する際に有用である有用文字列(有用キーワード)、および/または有用でない非有用文字列(非有用キーワード)に基づいて、所定の対象と当該投稿情報とを対応付けた表示情報を選択する。例えば、選択部15dは、就職活動支援サイトにおける有用キーワード、および非有用キーワードのうち少なくとも1つに基づいて、就職活動支援サイトに登録された事業者(企業)ごとに、表示情報であるQ&A一覧31を選択する。
(2-5-4. Selection unit 15d)
The selection unit 15d selects display information in which a predetermined target is associated with the posted information, based on useful character strings (useful keywords) that are useful when displaying display information related to the posted information in a predetermined service, and/or non-useful character strings (non-useful keywords) that are not useful. For example, the selection unit 15d selects a Q&A list 31, which is display information, for each business entity (company) registered on the job hunting support site, based on at least one of useful keywords and non-useful keywords in the job hunting support site.

選択部15dは、有用性があると分類された投稿情報から、表示情報を選択する。例えば、選択部15dは、分類部15bによって就職活動支援サイトにおいて有用である「就職関連」と分類された質問サイト投稿文20から、企業ごとにQ&A一覧31を選択する。このとき、選択部15dは、企業名を含む質問サイト投稿文20を当該企業IDと紐づけて企業ごとの選択リスト14b-3を作成し、当該選択リスト14b-3のうち分類部15bによって「就職非関連」と分類された質問サイト投稿文20を削除し、企業ごとにQ&A一覧31を選択する。 The selection unit 15d selects display information from the posted information classified as useful. For example, the selection unit 15d selects a Q&A list 31 for each company from the posts 20 to the question site classified by the classification unit 15b as "employment-related," which is useful for a job-hunting support site. At this time, the selection unit 15d creates a selection list 14b-3 for each company by linking the posts 20 to the question site that include a company name with the company ID, deletes the posts 20 to the question site that are classified by the classification unit 15b as "non-employment-related" from the selection list 14b-3, and selects a Q&A list 31 for each company.

さらに、選択部15dは、有用キーワードが含まれる投稿情報を表示情報として選択し、非有用キーワードが含まれる投稿情報を表示情報として選択しない。例えば、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の有用キーワードが含まれていない質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。一方、選択部15dは、企業名をもとに作成された企業ごとの選択リスト14b-3の非有用キーワードが含まれている質問文のうち、企業IDと紐づけされている質問文があれば、当該企業IDとの紐づけから外す。このとき、選択部15dは、有用キーワードと非有用キーワードとのうち、いずれか一方を用いて選択処理を実行することができる。すなわち、選択部15dは、有用キーワードおよび非有用キーワードが両方含まれている質問文がある場合には、有用キーワードを優先して紐づけしてもよいし、非有用キーワードを優先して紐づけから外してもよい。 Furthermore, the selection unit 15d selects posted information including useful keywords as display information, and does not select posted information including unuseful keywords as display information. For example, if there is a question sentence that is linked to a company ID among the questions that do not include useful keywords in the selection list 14b-3 for each company created based on the company name, the selection unit 15d removes the question sentence from the link with the company ID. On the other hand, if there is a question sentence that is linked to a company ID among the questions that include unuseful keywords in the selection list 14b-3 for each company created based on the company name, the selection unit 15d removes the question sentence from the link with the company ID. At this time, the selection unit 15d can execute the selection process using either the useful keywords or the unuseful keywords. That is, if there is a question sentence that includes both useful keywords and unuseful keywords, the selection unit 15d may preferentially link the useful keywords, or may preferentially remove the unuseful keywords from the link.

なお、選択部15dは、投稿情報である質問サイト投稿文20を収集情報記憶部14aから取得する。また、選択部15dは、分類結果である分類リスト14b-1を処理結果記憶部14bから取得する。一方、選択部15dは、選択結果である企業ごとの最終的な選択リスト14b-3、すなわち企業ごとのQ&A一覧31を処理結果記憶部14bに格納する。 The selection unit 15d acquires the posted information, ie, the question site posts 20, from the collected information storage unit 14a. The selection unit 15d also acquires the classification list 14b-1, which is the classification result, from the processing result storage unit 14b. On the other hand, the selection unit 15d stores the final selection list 14b-3 for each company, which is the selection result, i.e., the Q&A list 31 for each company, in the processing result storage unit 14b.

(2-5-5.表示部15e)
表示部15eは、表示情報を表示する。例えば、表示部15eは、就職活動支援サイト表示画面30上に、企業ごとにQ&A一覧31を表示する。また、表示部15eは、就職活動支援サイト表示画面30上に、共通する質問文に出現する企業名を表示情報として表示する。なお、表示部15eは、企業ごとのQ&A一覧31等の表示情報を処理結果記憶部14bから取得する。また、表示部15eは、企業ごとのQ&A一覧31等の表示情報を、図示しない事業者端末やデータベースに送信してもよい。
(2-5-5. Display unit 15e)
The display unit 15e displays the display information. For example, the display unit 15e displays a Q&A list 31 for each company on the job hunting support site display screen 30. Furthermore, the display unit 15e displays the names of companies appearing in common questions as display information on the job hunting support site display screen 30. The display unit 15e acquires the display information such as the Q&A list 31 for each company from the processing result storage unit 14b. Furthermore, the display unit 15e may transmit the display information such as the Q&A list 31 for each company to a business operator terminal or a database (not shown).

(2-5-6.学習部15f)
学習部15fは、収集された質問文に対して当該質問文が就職に関する有用な情報であるか否かのラベルが付与されたアノテーションデータを用いて、入力された質問サイト投稿文20が「就職関連」または「就職非関連」のいずれであるかの分類結果を出力するように、機械学習モデル14dの学習を行う。このとき、学習部13fは、バックプロパゲーション等により機械学習モデル14dの学習を行ってもよい。また、学習部15fは、複数の機械学習モデル14dの学習を行うこともできる。
(2-5-6. Learning unit 15f)
The learning unit 15f uses annotation data in which a label is added to the collected question text indicating whether the question text is useful information related to employment, to train the machine learning model 14d so as to output a classification result indicating whether the input question site post 20 is "employment-related" or "non-employment-related". At this time, the learning unit 13f may train the machine learning model 14d by backpropagation or the like. The learning unit 15f may also train multiple machine learning models 14d.

〔3.情報処理の具体例〕
続いて、実施形態に係る情報処理の具体例について説明する。以下では、情報処理装置10の有用キーワードを用いた選択処理、非有用キーワードを用いた選択処理、有用キーワードおよび非有用キーワードの抽出処理の具体例について説明する。
[3. Specific examples of information processing]
Next, a specific example of the information processing according to the embodiment will be described. A specific example of the selection process using useful keywords, the selection process using unuseful keywords, and the extraction process of useful keywords and unuseful keywords of the information processing device 10 will be described below.

(3-1.有用キーワードを用いた選択処理)
図3を用いて、実施形態に係る有用キーワードを用いた選択処理について説明する。図3は、実施形態に係る選択処理の具体例1を示す図である。以下では、作業服販売会社「W社」の就職関連の質問文に含まれる有用キーワードの例について説明する。
(3-1. Selection process using useful keywords)
A selection process using useful keywords according to the embodiment will be described with reference to Fig. 3. Fig. 3 is a diagram showing a specific example 1 of the selection process according to the embodiment. Below, an example of useful keywords included in a question text related to employment from a workwear sales company "Company W" will be described.

図3に示すように、「W社」の有用キーワードとして「求人」等が登録されている場合(図3(1)参照)、情報処理装置10は、「求人」が含まれている質問文を「W社」の就職関連の質問文として選択する(図3(2)参照)。すなわち、情報処理装置10は、「求人」というキーワードが「W社」の企業名が含まれる質問文において、就職関連の質問文である可能性が高いと判定する。図3の例で示すように、有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用である可能性が高いことを示す。 As shown in FIG. 3, when "job vacancies" and the like are registered as useful keywords for "Company W" (see FIG. 3 (1)), the information processing device 10 selects questions containing "job vacancies" as employment-related questions for "Company W" (see FIG. 3 (2)). In other words, the information processing device 10 determines that the keyword "job vacancies" is highly likely to be an employment-related question in questions that include the company name of "Company W". As shown in the example of FIG. 3, questions that contain useful keywords indicate a high possibility of being useful for a specified service (e.g., a job hunting support site).

(3-2.非有用キーワードを用いた選択処理)
図4を用いて、実施形態に係る非有用キーワードを用いた選択処理について説明する。図4は、実施形態に係る選択処理の具体例2を示す図である。以下では、ソフトウェア開発会社「M社」の就職非関連の質問文に含まれる非有用キーワードの例について説明する。
(3-2. Selection process using non-useful keywords)
A selection process using non-useful keywords according to the embodiment will be described with reference to Fig. 4. Fig. 4 is a diagram showing a specific example 2 of the selection process according to the embodiment. Below, an example of non-useful keywords included in a question text not related to employment from a software development company "Company M" will be described.

図4に示すように、「M社」の非有用キーワードとして「アップデート」、「表計算ソフトE」等が登録されている場合(図4(1)参照)、情報処理装置10は、「アップデート」、「表計算ソフトE」が含まれている質問文を「M社」の就職非関連の質問文として選択する(図4(2)参照)。すなわち、情報処理装置10は、「M社」のサービスに関連する「アップデート」や、「M社」の製品である「表計算ソフトE」というキーワードが「M社」の企業名が含まれる質問文において、就職非関連の質問文である可能性が高いと判定する。図4の例で示すように、非有用キーワードが含まれる質問文は、所定のサービス(例:就職活動支援サイト)に有用でない可能性が高いことを示す。 As shown in FIG. 4, when "update", "spreadsheet software E", etc. are registered as non-useful keywords for "Company M" (see FIG. 4 (1)), the information processing device 10 selects questions containing "update" and "spreadsheet software E" as non-employment-related questions for "Company M" (see FIG. 4 (2)). That is, the information processing device 10 determines that keywords such as "update", which is related to the services of "Company M", and "spreadsheet software E", which is a product of "Company M", are likely to be non-employment-related questions in questions that include the company name of "Company M". As shown in the example of FIG. 4, questions that contain non-useful keywords are likely to be unuseful for a specified service (e.g., a job hunting support site).

(3-3.有用キーワードおよび非有用キーワードの抽出処理)
図5を用いて、実施形態に係る有用キーワードおよび非有用キーワードの抽出処理について説明する。図5は、実施形態に係る抽出処理の具体例を示す図である。ここで、アノテーションデータの正例は、全体の企業における「就職関連」とラベル付けされた質問文であり、アノテーションデータの負例は、全体の企業における「就職非関連」とラベル付けされた質問文であり、仮ラベルデータの正例は、特定の企業における「就職関連」と仮ラベル付けされた質問文であり、仮ラベルデータの負例は、特定の企業における「就職非関連」と仮ラベル付けされた質問文である。
(3-3. Extraction process of useful and non-useful keywords)
The extraction process of useful keywords and non-useful keywords according to the embodiment will be described with reference to Fig. 5. Fig. 5 is a diagram showing a specific example of the extraction process according to the embodiment. Here, a positive example of annotation data is a question sentence labeled as "employment-related" for all companies, a negative example of annotation data is a question sentence labeled as "non-employment-related" for all companies, a positive example of temporary label data is a question sentence temporarily labeled as "employment-related" for a specific company, and a negative example of temporary label data is a question sentence temporarily labeled as "non-employment-related" for a specific company.

図5に示すように、情報処理装置10は、アノテーションデータの正例において少なく、仮ラベルデータの負例において少なく、かつ仮ラベルデータの正例において多く含まれる単語を有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職関連を示す質問文に少なく、かつ特定の企業における就職関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職関連のキーワードである有用キーワードとして抽出する。 As shown in FIG. 5, the information processing device 10 extracts as useful keywords words that are rare in positive examples of annotation data, rare in negative examples of temporary label data, and common in positive examples of temporary label data. In other words, the information processing device 10 extracts words that are rare in questions related to employment at all companies, and that are noticeably common in questions related to employment at a specific company, as useful keywords that are employment-related keywords that indicate the characteristics of each company.

一方、情報処理装置10は、アノテーションデータの負例において少なく、仮ラベルデータの正例において少なく、かつ仮ラベルデータの負例において多く含まれる単語を非有用キーワードとして抽出する。すなわち、情報処理装置10は、全体の企業における就職非関連を示す質問文に少なく、かつ特定の企業における就職非関連を示す質問文に顕著に多い単語を、企業ごとの特徴を示す就職非関連のキーワードである非有用キーワードとして抽出する。 On the other hand, the information processing device 10 extracts as non-useful keywords words that are rare in negative examples of the annotation data, rare in positive examples of the temporary label data, and common in negative examples of the temporary label data. In other words, the information processing device 10 extracts words that are rare in questions indicating non-employment-related issues across all companies, and that are significantly common in questions indicating non-employment-related issues at a specific company, as non-useful keywords that are non-employment-related keywords that indicate the characteristics of each company.

〔4.情報処理の流れ〕
図6を用いて、実施形態に係る情報処理装置10の情報処理の手順について説明する。図6は、実施形態に係る情報処理の流れの一例を示すフローチャートである。なお、下記のステップS101~S105は、異なる順序で実行することもできる。また、下記のステップS101~S105のうち、省略される処理があってもよい。
[4. Information processing flow]
The procedure of information processing of the information processing device 10 according to the embodiment will be described with reference to Fig. 6. Fig. 6 is a flowchart showing an example of the flow of information processing according to the embodiment. Note that the following steps S101 to S105 may be executed in a different order. Also, among the following steps S101 to S105, some processing may be omitted.

(4-1.投稿情報取得処理)
第1に、情報処理装置10の取得部15aは、投稿情報取得処理を実行する(ステップS101)。例えば、取得部15aは、質問サイトサーバから、投稿された質問サイト投稿文20を取得する。
(4-1. Posted Information Acquisition Process)
First, the acquisition unit 15a of the information processing device 10 executes a posted information acquisition process (step S101). For example, the acquisition unit 15a acquires a posted message 20 from a question site server.

(4-2.投稿情報分類処理)
第2に、情報処理装置10の分類部15bは、投稿情報分類処理を実行する(ステップS102)。例えば、分類部15bは、就職に関する分類モデル14dを用いて、質問サイト投稿文20を就職関連、または就職非関連に分類する。
(4-2. Posted Information Classification Processing)
Second, the classification unit 15b of the information processing device 10 executes a posted information classification process (step S102). For example, the classification unit 15b classifies the question site posted message 20 into employment-related or non-employment-related messages using the employment-related classification model 14d.

(4-3.文字列情報生成処理)
第3に、情報処理装置10の生成部15cは、文字列情報生成処理を実行する(ステップS103)。例えば、生成部15cは、アノテーションデータと企業ごとの質問サイト投稿文20とから、就職に関する分類モデル14dを用いて、企業ごとに有用キーワードおよび非有用キーワードを紐づけしたキーワード辞書14b-2を生成する。
(4-3. Character String Information Generation Process)
Third, the generating unit 15c of the information processing device 10 executes a character string information generating process (step S103). For example, the generating unit 15c generates a keyword dictionary 14b-2 in which useful keywords and non-useful keywords are linked for each company from the annotation data and the question site posts 20 for each company, using the classification model 14d related to employment.

(4-4.投稿情報選択処理)
第4に、情報処理装置10の選択部15dは、投稿情報選択処理を実行する(ステップS104)。例えば、選択部15dは、キーワード辞書14b-2をもとに、企業ごとに選択リスト14b-3を作成し、就職活動支援サイトに表示するQ&A一覧31を生成する。
(4-4. Posted Information Selection Process)
Fourth, the selection unit 15d of the information processing device 10 executes a posted information selection process (step S104). For example, the selection unit 15d creates a selection list 14b-3 for each company based on the keyword dictionary 14b-2, and generates a Q&A list 31 to be displayed on the job hunting support site.

(4-5.投稿情報表示処理)
第5に、情報処理装置10の表示部15eは、投稿情報表示処理を実行し(ステップS105)、処理を終了する。例えば、表示部15eは、企業ごとにQ&A一覧31を含む就職活動支援サイト表示画面30を表示する。
(4-5. Posted Information Display Processing)
Fifth, the display unit 15e of the information processing device 10 executes the posted information display process (step S105), and ends the process. For example, the display unit 15e displays the job hunting support site display screen 30 including the Q&A list 31 for each company.

〔5.実施形態の効果〕
最後に、実施形態の効果について説明する。以下では、実施形態に係る処理に対応する効果1~7について説明する。
5. Effects of the embodiment
Finally, effects of the embodiment will be described below: Effects 1 to 7 corresponding to the processing according to the embodiment will be described below.

(5-1.効果1)
上述した実施形態に係る処理では、質問サイトにおいて投稿された投稿情報を取得し、所定の対象と当該投稿情報とを対応付けた表示情報を選択し、当該表示情報を表示する。このため、本処理では、利用者に対して効率的に情報を提供することができる。
(5-1. Effect 1)
In the process according to the embodiment described above, posted information posted on a question site is acquired, display information in which a predetermined target is associated with the posted information is selected, and the display information is displayed. Therefore, in this process, information can be efficiently provided to users.

(5-2.効果2)
上述した実施形態に係る処理では、投稿情報と所定のサービスにおける有用性とを学習した機械学習モデルを用いて、取得した投稿情報を分類し、有用性があると分類した投稿情報から、表示情報を選択する。このため、本処理では、所定のサービスにおける分類モデルを用いて、利用者に対して効率的に情報を提供することができる。
(5-2. Effect 2)
In the process according to the embodiment described above, the acquired posted information is classified using a machine learning model that has learned about the posted information and its usefulness in a predetermined service, and display information is selected from the posted information classified as useful. Therefore, in this process, information can be efficiently provided to users using a classification model in a predetermined service.

(5-3.効果3)
上述した実施形態に係る処理では、有用文字列が含まれる投稿情報を表示情報として選択し、非有用文字列が含まれる投稿情報を表示情報として選択しない。このため、本処理では、利用者に対して効率的に効果的な情報を提供することができる。
(5-3. Effect 3)
In the process according to the embodiment described above, posted information including useful character strings is selected as display information, and posted information including non-useful character strings is not selected as display information. Therefore, in this process, it is possible to efficiently provide effective information to users.

(5-4.効果4)
上述した実施形態に係る処理では、就職活動支援サイトにおいて表示情報を表示する際に有用である有用文字列、および/または有用でない非有用文字列に基づいて、就職活動支援サイトに登録された事業者と投稿情報とを対応付けた表示情報を選択する。このため、本処理では、就職活動支援サイトの利用者に対して効率的に情報を提供することができる。
(5-4. Effect 4)
In the process according to the embodiment described above, display information that associates businesses registered on the job hunting support site with posted information is selected based on useful character strings that are useful when displaying display information on the job hunting support site and/or non-useful character strings that are not useful. Therefore, this process can efficiently provide information to users of the job hunting support site.

(5-5.効果5)
上述した実施形態に係る処理では、機械学習モデルの学習に用いる学習データと、所定の対象に関連する投稿情報から機械学習モデルを用いて出力された分類結果とに基づいて、所定の対象に関連する投稿情報に含まれる文字列のうち、当該投稿情報が提供されたサービスとは異なるサービスにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、所定の対象を示す対象情報と、当該有用文字列および当該非有用文字列とを対応付けた文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-5. Effect 5)
In the process according to the embodiment described above, useful strings that are useful in a service other than the service to which the posted information is provided and non-useful strings that are not useful are extracted from strings included in the posted information related to a specific target based on the learning data used to train the machine learning model and the classification results output from the posted information related to a specific target using the machine learning model, and string information is generated that associates the useful strings and non-useful strings with target information indicating the specific target. Therefore, in this process, by effectively generating string information for each specific target, it is possible to efficiently provide information to users.

(5-6.効果6)
上述した実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの正例において判定値が所定の閾値未満であって、分類結果の負例において判定値が所定の閾値未満であって、かつ分類結果の正例において判定値が所定の閾値以上である文字列を有用文字列として抽出し、文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-6. Effect 6)
In the process according to the embodiment described above, a judgment value including the frequency of occurrence or mutual information of a character string is calculated, and character strings whose judgment value is less than a predetermined threshold in positive examples of the learning data, whose judgment value is less than the predetermined threshold in negative examples of the classification result, and whose judgment value is equal to or greater than the predetermined threshold in positive examples of the classification result are extracted as useful character strings, and character string information is generated. Therefore, in this process, by generating character string information including useful character strings effectively for each predetermined target, information can be efficiently provided to users.

(5-7.効果7)
上述した本実施形態に係る処理では、文字列の出現頻度または相互情報量を含む判定値を算出し、学習データの負例において判定値が所定の閾値未満であって、分類結果の正例において判定値が所定の閾値未満であって、かつ分類結果の負例において判定値が所定の閾値以上である文字列を非有用文字列として抽出し、前記文字列情報を生成する。このため、本処理では、所定の対象ごとに効果的に非有用文字列を含む文字列情報を生成することによって、利用者に対して効率的に情報を提供することができる。
(5-7. Effect 7)
In the process according to the present embodiment described above, a judgment value including the frequency of occurrence or mutual information of a character string is calculated, and character strings for which the judgment value is less than a predetermined threshold in negative examples of the learning data, the judgment value is less than the predetermined threshold in positive examples of the classification result, and the judgment value is equal to or greater than the predetermined threshold in negative examples of the classification result are extracted as non-useful character strings, and the character string information is generated. Therefore, in this process, by generating character string information including non-useful character strings effectively for each predetermined target, it is possible to efficiently provide information to users.

〔ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置10は、例えば、図7に示すような構成のコンピュータ1000によって実現される。以下、情報処理装置10を例に挙げて説明する。図7は、情報処理装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、およびメディアインターフェイス(I/F)1700を有する。
[Hardware configuration]
The information processing device 10 according to the embodiment described above is realized, for example, by a computer 1000 having a configuration as shown in Fig. 7. The information processing device 10 will be described below as an example. Fig. 7 is a hardware configuration diagram showing an example of a computer that realizes the functions of the information processing device 10. The computer 1000 has a CPU 1100, a RAM 1200, a ROM 1300, a HDD 1400, a communication interface (I/F) 1500, an input/output interface (I/F) 1600, and a media interface (I/F) 1700.

CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。 The CPU 1100 operates based on a program stored in the ROM 1300 or the HDD 1400, and controls each component. The ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started, and programs that depend on the hardware of the computer 1000, etc.

HDD1400は、CPU1100によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。 HDD 1400 stores programs executed by CPU 1100 and data used by such programs. Communication interface 1500 receives data from other devices via a specified communication network and sends it to CPU 1100, and transmits data generated by CPU 1100 to other devices via the specified communication network.

CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。 The CPU 1100 controls output devices such as a display and a printer, and input devices such as a keyboard and a mouse, via the input/output interface 1600. The CPU 1100 acquires data from the input devices via the input/output interface 1600. The CPU 1100 also outputs generated data to the output devices via the input/output interface 1600.

メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。 The media interface 1700 reads a program or data stored in the recording medium 1800 and provides it to the CPU 1100 via the RAM 1200. The CPU 1100 loads the program from the recording medium 1800 onto the RAM 1200 via the media interface 1700 and executes the loaded program. The recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or a PD (Phase change rewritable Disc), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.

例えば、コンピュータ1000が実施形態に係る情報処理装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部15の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。 For example, when the computer 1000 functions as the information processing device 10 according to the embodiment, the CPU 1100 of the computer 1000 executes programs loaded onto the RAM 1200 to realize the functions of the control unit 15. The CPU 1100 of the computer 1000 reads and executes these programs from the recording medium 1800, but as another example, the CPU 1100 may obtain these programs from another device via a specified communication network.

〔その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。
〔others〕
Although the embodiments of the present application have been described above, the present invention is not limited to the contents of these embodiments. The above-described components include those that can be easily imagined by a person skilled in the art, those that are substantially the same, and those that are within the so-called equivalent range. Furthermore, the above-described components can be appropriately combined. Furthermore, various omissions, substitutions, or modifications of the components can be made without departing from the scope of the gist of the above-described embodiments.

また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。 Furthermore, among the processes described in the above embodiments, all or part of the processes described as being performed automatically can be performed manually, or all or part of the processes described as being performed manually can be performed automatically using known methods. In addition, the information including the processing procedures, specific names, various data, and parameters shown in the above documents and drawings can be changed as desired unless otherwise specified. For example, the various information shown in each drawing is not limited to the information shown in the drawings.

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。 In addition, each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. In other words, the specific form of distribution and integration of each device is not limited to that shown in the figure, and all or part of them can be functionally or physically distributed and integrated in any unit depending on various loads, usage conditions, etc.

例えば、上述した情報処理装置10は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。 For example, the information processing device 10 described above may be realized by multiple server computers, and depending on the functions, the configuration can be flexibly changed, such as by calling an external platform using an API (Application Programming Interface) or network computing.

また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 The above-described embodiments and variations can be combined as appropriate to the extent that they do not cause inconsistencies in the processing content.

また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、制御部は、制御手段や制御回路に読み替えることができる。 The above-mentioned "section, module, unit" can be read as "means" or "circuit." For example, a control unit can be read as a control means or a control circuit.

10 情報処理装置
11 通信部
12 入力部
13 出力部
14 記憶部
14a 収集情報記憶部
14b 処理結果記憶部
14c 学習データ記憶部
14d 学習モデル
15 制御部
15a 取得部
15b 分類部
15c 生成部
15d 選択部
15e 表示部
15f 学習部
20 質問サイト投稿文(投稿情報)
30 就職活動支援サイト表示画面
31 Q&A一覧(表示情報)
100 情報処理システム
REFERENCE SIGNS LIST 10 Information processing device 11 Communication unit 12 Input unit 13 Output unit 14 Memory unit 14a Collected information memory unit 14b Processing result memory unit 14c Learning data memory unit 14d Learning model 15 Control unit 15a Acquisition unit 15b Classification unit 15c Generation unit 15d Selection unit 15e Display unit 15f Learning unit 20 Question site post (posted information)
30 Job hunting support site display screen 31 Q&A list (display information)
100 Information Processing System

Claims (8)

所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類部と、
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、
を備え
前記生成部は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理装置。
a classification unit that classifies the acquired posted information using a machine learning model that has learned about posted information related to a predetermined target and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation unit that extracts useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generates string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Equipped with
the generation unit calculates a judgment value including an appearance frequency of a character string, and generates, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result.
23. An information processing apparatus comprising:
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類部と、a classification unit that classifies the acquired posted information using a machine learning model that has learned about posted information related to a predetermined target and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成部、a generation unit that extracts useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generates string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
を備え、Equipped with
前記生成部は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generation unit calculates a judgment value including an appearance frequency of a character string, and generates, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than the predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result.
ことを特徴とする情報処理装置。23. An information processing apparatus comprising:
前記生成部は、質問サイトに投稿された投稿情報であって、就職活動支援サイトに登録された事業者に関連する投稿情報に含まれる文字列のうち、当該就職活動支援サイトにおいて有用である前記有用文字列、および有用でない前記非有用文字列を抽出し、前記事業者に対応付けされた前記有用文字列および前記非有用文字列を生成する、
ことを特徴とする請求項1または2に記載の情報処理装置。
the generation unit extracts useful character strings that are useful on the job hunting support site and non-useful character strings that are not useful from character strings included in posted information that is posted on a question site and is related to businesses registered on a job hunting support site, and generates the useful character strings and the non-useful character strings associated with the businesses.
3. The information processing apparatus according to claim 1, wherein the information processing apparatus is a computer.
前記生成部は、前記文字列情報として、対象に関するコンテンツを表示する際に、当該コンテンツ内に配置して表示する投稿情報の選択に用いられる情報を生成する、
ことを特徴とする請求項1からのいずれか1項に記載の情報処理装置。
the generation unit generates, as the character string information, information used for selecting posted information to be arranged and displayed within content related to a target when the content is displayed;
4. The information processing apparatus according to claim 1, wherein the information processing apparatus is a computer.
情報処理装置によって実行される情報処理方法であって、
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類工程と、
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、
を含み、
前記生成工程は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理方法。
An information processing method executed by an information processing device,
a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and the usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Including,
the generating step calculates a judgment value including an appearance frequency of a character string, and generates, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result;
23. An information processing method comprising:
情報処理装置によって実行される情報処理方法であって、An information processing method executed by an information processing device,
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類工程と、a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and the usefulness of the posted information on a second website different from a first website to which the posted information is provided;
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成工程、a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for learning the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
を含み、Including,
前記生成工程は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generating step calculates a judgment value including an appearance frequency of a character string, and generates, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than a predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result;
ことを特徴とする情報処理方法。23. An information processing method comprising:
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類手順と、
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、
をコンピュータに実行させ
前記生成手順は、文字列の出現頻度を含む判定値を算出し、前記学習データの正例において前記判定値が所定の閾値未満であって、前記分類結果の負例において前記判定値が所定の閾値未満であって、かつ前記分類結果の正例において前記判定値が所定の閾値以上である文字列を前記有用文字列として生成する、
ことを特徴とする情報処理プログラム。
a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for training the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
Run the following on your computer :
the generation step includes calculating a judgment value including an appearance frequency of a character string, and generating, as the useful character string, a character string in which the judgment value is less than a predetermined threshold in a positive example of the learning data, the judgment value is less than the predetermined threshold in a negative example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a positive example of the classification result;
2. An information processing program comprising:
所定の対象に関連する投稿情報と、前記投稿情報が提供された第1のウェブサイトとは異なる第2のウェブサイトにおける有用性とを学習した機械学習モデルを用いて、取得された前記投稿情報を分類する分類手順と、a classification step of classifying the acquired posted information using a machine learning model that has learned about posted information related to a predetermined subject and usefulness of the posted information on a second website different from a first website to which the posted information is provided;
前記機械学習モデルの学習に用いる学習データと、前記対象に関連する前記投稿情報から前記機械学習モデルを用いて出力された分類結果とに基づいて、前記投稿情報に含まれる文字列のうち、前記第2のウェブサイトにおいて有用である有用文字列、および有用でない非有用文字列を抽出し、前記対象を識別する文字列を示す対象情報と、前記有用文字列および前記非有用文字列とを対応付けた文字列情報を生成する生成手順、a generation step of extracting useful strings that are useful on the second website and non-useful strings that are not useful from strings included in the posted information based on learning data used for training the machine learning model and a classification result output from the posted information related to the target using the machine learning model, and generating string information in which target information indicating a string that identifies the target is associated with the useful strings and the non-useful strings;
をコンピュータに実行させ、Run the following on your computer:
前記生成手順は、文字列の出現頻度を含む判定値を算出し、前記学習データの負例において前記判定値が所定の閾値未満であって、前記分類結果の正例において前記判定値が所定の閾値未満であって、かつ前記分類結果の負例において前記判定値が所定の閾値以上である文字列を前記非有用文字列として生成する、the generation step includes calculating a judgment value including an appearance frequency of a character string, and generating, as the non-useful character string, a character string for which the judgment value is less than a predetermined threshold in a negative example of the learning data, the judgment value is less than a predetermined threshold in a positive example of the classification result, and the judgment value is equal to or greater than the predetermined threshold in a negative example of the classification result;
ことを特徴とする情報処理プログラム。23. An information processing program comprising:
JP2022024322A 2022-02-18 2022-02-18 Information processing device, information processing method, and information processing program Active JP7485706B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022024322A JP7485706B2 (en) 2022-02-18 2022-02-18 Information processing device, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022024322A JP7485706B2 (en) 2022-02-18 2022-02-18 Information processing device, information processing method, and information processing program

Publications (2)

Publication Number Publication Date
JP2023121078A JP2023121078A (en) 2023-08-30
JP7485706B2 true JP7485706B2 (en) 2024-05-16

Family

ID=87797467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022024322A Active JP7485706B2 (en) 2022-02-18 2022-02-18 Information processing device, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP7485706B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014099045A (en) 2012-11-14 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> Profile estimation device, method, and program
JP2015090664A (en) 2013-11-07 2015-05-11 株式会社Nttドコモ Information processing device and display priority determination method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014099045A (en) 2012-11-14 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> Profile estimation device, method, and program
JP2015090664A (en) 2013-11-07 2015-05-11 株式会社Nttドコモ Information processing device and display priority determination method

Also Published As

Publication number Publication date
JP2023121078A (en) 2023-08-30

Similar Documents

Publication Publication Date Title
US10896214B2 (en) Artificial intelligence based-document processing
Lecompte Automation in the newsroom: How algorithms are helping reporters expand coverage, engage audiences, and respond to breaking news
Vu et al. Website design and evaluation
US20050228767A1 (en) Method, system and program product for developing a data model in a data mining system
Alyousef A multimodal discourse analysis of the textual and logical relations in marketing texts written by international undergraduate students
Kim et al. Design of contents for ICT literacy in-service training of teachers in Korea
JP7290391B2 (en) Information processing device and program
O'Neill et al. Expert systems in the United Kingdom: an evaluation of development methodologies
O'Leary et al. Computing essentials
JP2019125317A (en) Device, method, and program for processing information
JP7485706B2 (en) Information processing device, information processing method, and information processing program
CN112529743A (en) Contract element extraction method, contract element extraction device, electronic equipment and medium
Tuladhar et al. Predictive analysis of e-commerce products
CN112418875A (en) Cross-platform tax intelligent customer service corpus migration method and device
JP7372372B2 (en) Information processing device, information processing method, and information processing program
CN112328812B (en) Domain knowledge extraction method and system based on self-adjusting parameters and electronic equipment
Saifan et al. Feature location enhancement based on source code augmentation with synonyms of terms
Färber Using a semantic wiki for technology forecast and technology monitoring
Wagner Automated Journalism
Sneed Requirement-based testing-extracting logical test cases from requirement documents
Qureshi et al. Capturing users requirements using a data mining approach
Das et al. Prioritizing Public Grievance Redressal Using Text Mining and Sentimental Analysis
Rambola et al. Development of Novel Evaluating Practices for Subjective Answers Using Natural Language Processing
CN117522485B (en) Advertisement recommendation method, device, equipment and computer readable storage medium
Takahashi et al. An Automatic Coding System with a Three-Grade Confidence Level Corresponding to the National/International Occupation and Industry Standard-Open to the Public on the Web.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20231026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240502

R150 Certificate of patent or registration of utility model

Ref document number: 7485706

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150