CN112507687A - 一种基于二次排序的工单检索方法 - Google Patents

一种基于二次排序的工单检索方法 Download PDF

Info

Publication number
CN112507687A
CN112507687A CN202011423869.9A CN202011423869A CN112507687A CN 112507687 A CN112507687 A CN 112507687A CN 202011423869 A CN202011423869 A CN 202011423869A CN 112507687 A CN112507687 A CN 112507687A
Authority
CN
China
Prior art keywords
work order
word
method based
calculating
information table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011423869.9A
Other languages
English (en)
Inventor
张子成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huiningjie Information Technology Co ltd
Original Assignee
Nanjing Huiningjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huiningjie Information Technology Co ltd filed Critical Nanjing Huiningjie Information Technology Co ltd
Priority to CN202011423869.9A priority Critical patent/CN112507687A/zh
Publication of CN112507687A publication Critical patent/CN112507687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了工单检索方法技术领域的一种基于二次排序的工单检索方法,包括根据工单信息表对工单ID所对应的工单内容进行分词;根据关键词和工单ID的对应关系建立字典信息表;根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;采用Word2Vec模型算法对工单数据进行二次排序;采用Word2Vec算法对所有工单数据进行训练;利用word2vec算法将词编码成词向量;对WMD进行计算。该基于二次排序的工单检索方法,在平衡检索时间与检索精度的情况下,精度高,检索速度快,用户体验较为满意。

Description

一种基于二次排序的工单检索方法
技术领域
本发明涉及工单检索方法技术领域,具体为一种基于二次排序的工单检索方法。
背景技术
随着互联网不断的高速发展,企业通过在网路上与客户进行交流,并针对客户的问题和请求进行管理、维护和追踪,客户根据关键词搜索来浏览所需要解决问题的文案。
在基于关键词的检索中,检索按指定的若干个关键词进行检索,这种基于关键词的检索算法匹配精度较低。基于语义检索的算法,虽然精度较高,但是对大规模的数据而言,检索耗费时间较久,用户体验较差,为此我们提出了一种基于二次排序的工单检索方法。
发明内容
本发明的目的在于提供一种基于二次排序的工单检索方法,以解决上述背景技术中提出了基于关键词的检索算法匹配精度较低。基于语义检索的算法,虽然精度较高,但是对大规模的数据而言,检索耗费时间较久,用户体验较差的问题。
为实现上述目的,本发明提供如下技术方案:一种基于二次排序的工单检索方法,包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
优选的,所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。
优选的,所述字典信息表用于记录所有出现所述关键词的工单ID。
优选的,所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
优选的,所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
优选的,所述S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
优选的,所述S1:计算每个关键词的nBOW权重,具体计算公式为:
Figure BDA0002823844320000021
Figure BDA0002823844320000022
其中ci表示第i个词在文中出现的次数。d表示的是单个关键词的一个权重分布。
优选的,所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2
优选的,所述S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即
Figure BDA0002823844320000031
同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
Figure BDA0002823844320000032
优选的,所述S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
Figure BDA0002823844320000033
其中:
Figure BDA0002823844320000034
Figure BDA0002823844320000035
最终的相似度值为:
Figure BDA0002823844320000036
与现有技术相比,本发明的有益效果是:该基于二次排序的工单检索方法,采用关键词集合实现一次的工单筛选出N个备选工单,再采用语义相似度计算的方法将一次筛选出的工单进行二次工单排序,得出与待匹配工单语义最接近的工单。在平衡检索时间与检索精度的情况下,精度高,检索速度快,用户体验较为满意。
附图说明
图1为本发明步骤流程框图;
图2为本发明WMD计算流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于二次排序的工单检索方法,请参阅图1-2,包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
其中,S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,工单信息表包括工单ID和工单内容。
其中,字典信息表用于记录所有出现所述关键词的工单ID。
其中,S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
其中,S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
其中,S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
其中:S1:计算每个关键词的nBOW权重,具体计算公式为:
Figure BDA0002823844320000051
其中ci表示第i个词在文中出现的次数。d表示的是单个关键词的一个权重分布。
其中:S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2
其中:S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即
Figure BDA0002823844320000052
Figure BDA0002823844320000053
同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
Figure BDA0002823844320000054
其中:S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
Figure BDA0002823844320000055
其中:
Figure BDA0002823844320000056
Figure BDA0002823844320000061
最终的相似度值为:
Figure BDA0002823844320000062
实施例
该实施例包括如下步骤:
1、对一个自然语言处理工单首先进行分词如对工单ID为1的工单“公积金政策是什么?”进行分词;工单信息表如下:
工单ID 工单内容
1 公积金政策是什么?
2 公积金缴纳标准是什么?
2、采用TD-IDF算法对工单的关键语素信息进行提取,然后将关键词与工单ID建立词典中的对应关系用于记录所有出现改关键词的工单ID。例如表1中对工单ID为1的工单提取关键词为“公积金”和“政策”,在工单ID为2的工单提取关键词为“公积金”、“缴纳”和“标准”。则所建立的字典信息表如下:
关键词 ID列表
公积金 {1,2}
政策 {1}
缴纳 {2}
标准 {3}
3、对待排序工单进行分词,如工单“公积金的迁入政策是什么”,采用TD-IDF算法对工单进行提取关键词“公积金”、“迁入”和“政策”。对提取出来的关键词在字典表中查询得出“公积金”对应的ID列表“{1,2}”,“政策”对应的ID列表“{1}”,对所取出的ID列表取交集运算:{1,2}∩{1}={1},则ID为1的工单即为一次检索匹配结果。
本实施例采用关键词集合实现一次的工单筛选出多个备选工单,提高了检索的精准度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
虽然在上文中已经参考实施例对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施例中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施例,而是包括落入权利要求的范围内的所有技术方案。

Claims (10)

1.一种基于二次排序的工单检索方法,其特征在于:包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
2.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。
3.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述字典信息表用于记录所有出现所述关键词的工单ID。
4.根据权利要求3所述的一种基于二次排序的工单检索方法,其特征在于:所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
5.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
6.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
7.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S1:计算每个关键词的nBOW权重,具体计算公式为:
Figure FDA0002823844310000021
其中ci表示第i个词在文中出现的次数。d表示的是单个关键词的一个权重分布。
8.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2
9.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即
Figure FDA0002823844310000022
同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
Figure FDA0002823844310000023
10.根据权利要求6和9所述的一种基于二次排序的工单检索方法,其特征在于:所述S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
Figure FDA0002823844310000024
其中:
Figure FDA0002823844310000025
Figure FDA0002823844310000031
最终的相似度值为:
Figure FDA0002823844310000032
CN202011423869.9A 2020-12-08 2020-12-08 一种基于二次排序的工单检索方法 Pending CN112507687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011423869.9A CN112507687A (zh) 2020-12-08 2020-12-08 一种基于二次排序的工单检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011423869.9A CN112507687A (zh) 2020-12-08 2020-12-08 一种基于二次排序的工单检索方法

Publications (1)

Publication Number Publication Date
CN112507687A true CN112507687A (zh) 2021-03-16

Family

ID=74970341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011423869.9A Pending CN112507687A (zh) 2020-12-08 2020-12-08 一种基于二次排序的工单检索方法

Country Status (1)

Country Link
CN (1) CN112507687A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302246A (zh) * 2021-12-31 2022-04-08 北京快来文化传播集团有限公司 直播平台上搜索方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114302246A (zh) * 2021-12-31 2022-04-08 北京快来文化传播集团有限公司 直播平台上搜索方法、装置及设备
CN114302246B (zh) * 2021-12-31 2024-01-16 北京快来文化传播集团有限公司 直播平台上搜索方法、装置及设备

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
Kano et al. Coliee-2018: Evaluation of the competition on legal information extraction and entailment
US20130060769A1 (en) System and method for identifying social media interactions
JP5605583B2 (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN115309872B (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
CN110866102A (zh) 检索处理方法
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
US20140040297A1 (en) Keyword extraction
CN111241824A (zh) 一种用于中文隐喻信息识别的方法
CN111754208A (zh) 一种招聘简历自动筛选方法
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN112507687A (zh) 一种基于二次排序的工单检索方法
CN114742062B (zh) 文本关键词提取处理方法及系统
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Sood et al. Reasoning through search: a novel approach to sentiment classification
CN113688633A (zh) 一种提纲确定方法及装置
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210316

WD01 Invention patent application deemed withdrawn after publication