CN112507687A - 一种基于二次排序的工单检索方法 - Google Patents
一种基于二次排序的工单检索方法 Download PDFInfo
- Publication number
- CN112507687A CN112507687A CN202011423869.9A CN202011423869A CN112507687A CN 112507687 A CN112507687 A CN 112507687A CN 202011423869 A CN202011423869 A CN 202011423869A CN 112507687 A CN112507687 A CN 112507687A
- Authority
- CN
- China
- Prior art keywords
- work order
- word
- method based
- calculating
- information table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 13
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了工单检索方法技术领域的一种基于二次排序的工单检索方法,包括根据工单信息表对工单ID所对应的工单内容进行分词;根据关键词和工单ID的对应关系建立字典信息表;根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;采用Word2Vec模型算法对工单数据进行二次排序;采用Word2Vec算法对所有工单数据进行训练;利用word2vec算法将词编码成词向量;对WMD进行计算。该基于二次排序的工单检索方法,在平衡检索时间与检索精度的情况下,精度高,检索速度快,用户体验较为满意。
Description
技术领域
本发明涉及工单检索方法技术领域,具体为一种基于二次排序的工单检索方法。
背景技术
随着互联网不断的高速发展,企业通过在网路上与客户进行交流,并针对客户的问题和请求进行管理、维护和追踪,客户根据关键词搜索来浏览所需要解决问题的文案。
在基于关键词的检索中,检索按指定的若干个关键词进行检索,这种基于关键词的检索算法匹配精度较低。基于语义检索的算法,虽然精度较高,但是对大规模的数据而言,检索耗费时间较久,用户体验较差,为此我们提出了一种基于二次排序的工单检索方法。
发明内容
本发明的目的在于提供一种基于二次排序的工单检索方法,以解决上述背景技术中提出了基于关键词的检索算法匹配精度较低。基于语义检索的算法,虽然精度较高,但是对大规模的数据而言,检索耗费时间较久,用户体验较差的问题。
为实现上述目的,本发明提供如下技术方案:一种基于二次排序的工单检索方法,包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
优选的,所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。
优选的,所述字典信息表用于记录所有出现所述关键词的工单ID。
优选的,所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
优选的,所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
优选的,所述S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
优选的,所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2。
优选的,所述S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
优选的,所述S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
最终的相似度值为:
与现有技术相比,本发明的有益效果是:该基于二次排序的工单检索方法,采用关键词集合实现一次的工单筛选出N个备选工单,再采用语义相似度计算的方法将一次筛选出的工单进行二次工单排序,得出与待匹配工单语义最接近的工单。在平衡检索时间与检索精度的情况下,精度高,检索速度快,用户体验较为满意。
附图说明
图1为本发明步骤流程框图;
图2为本发明WMD计算流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于二次排序的工单检索方法,请参阅图1-2,包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
其中,S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,工单信息表包括工单ID和工单内容。
其中,字典信息表用于记录所有出现所述关键词的工单ID。
其中,S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
其中,S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
其中,S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
其中:S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2。
其中:S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即 同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
其中:S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
最终的相似度值为:
实施例
该实施例包括如下步骤:
1、对一个自然语言处理工单首先进行分词如对工单ID为1的工单“公积金政策是什么?”进行分词;工单信息表如下:
工单ID | 工单内容 |
1 | 公积金政策是什么? |
2 | 公积金缴纳标准是什么? |
2、采用TD-IDF算法对工单的关键语素信息进行提取,然后将关键词与工单ID建立词典中的对应关系用于记录所有出现改关键词的工单ID。例如表1中对工单ID为1的工单提取关键词为“公积金”和“政策”,在工单ID为2的工单提取关键词为“公积金”、“缴纳”和“标准”。则所建立的字典信息表如下:
关键词 | ID列表 |
公积金 | {1,2} |
政策 | {1} |
缴纳 | {2} |
标准 | {3} |
3、对待排序工单进行分词,如工单“公积金的迁入政策是什么”,采用TD-IDF算法对工单进行提取关键词“公积金”、“迁入”和“政策”。对提取出来的关键词在字典表中查询得出“公积金”对应的ID列表“{1,2}”,“政策”对应的ID列表“{1}”,对所取出的ID列表取交集运算:{1,2}∩{1}={1},则ID为1的工单即为一次检索匹配结果。
本实施例采用关键词集合实现一次的工单筛选出多个备选工单,提高了检索的精准度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。
Claims (10)
1.一种基于二次排序的工单检索方法,其特征在于:包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
2.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。
3.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述字典信息表用于记录所有出现所述关键词的工单ID。
4.根据权利要求3所述的一种基于二次排序的工单检索方法,其特征在于:所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
5.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
6.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
8.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423869.9A CN112507687A (zh) | 2020-12-08 | 2020-12-08 | 一种基于二次排序的工单检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423869.9A CN112507687A (zh) | 2020-12-08 | 2020-12-08 | 一种基于二次排序的工单检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112507687A true CN112507687A (zh) | 2021-03-16 |
Family
ID=74970341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423869.9A Pending CN112507687A (zh) | 2020-12-08 | 2020-12-08 | 一种基于二次排序的工单检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507687A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114302246A (zh) * | 2021-12-31 | 2022-04-08 | 北京快来文化传播集团有限公司 | 直播平台上搜索方法、装置及设备 |
-
2020
- 2020-12-08 CN CN202011423869.9A patent/CN112507687A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114302246A (zh) * | 2021-12-31 | 2022-04-08 | 北京快来文化传播集团有限公司 | 直播平台上搜索方法、装置及设备 |
CN114302246B (zh) * | 2021-12-31 | 2024-01-16 | 北京快来文化传播集团有限公司 | 直播平台上搜索方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Kano et al. | Coliee-2018: Evaluation of the competition on legal information extraction and entailment | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP5605583B2 (ja) | 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN114911917B (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN115309872B (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
CN110866102A (zh) | 检索处理方法 | |
CN115905489B (zh) | 一种提供招投标信息搜索服务的方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
US20140040297A1 (en) | Keyword extraction | |
CN111241824A (zh) | 一种用于中文隐喻信息识别的方法 | |
CN111754208A (zh) | 一种招聘简历自动筛选方法 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN112507687A (zh) | 一种基于二次排序的工单检索方法 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
Sood et al. | Reasoning through search: a novel approach to sentiment classification | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210316 |
|
WD01 | Invention patent application deemed withdrawn after publication |