CN111460104A

CN111460104A - 行业自适应的智能搜索方法

Info

Publication number: CN111460104A
Application number: CN202010249110.7A
Authority: CN
Inventors: 李民; 朱锦雷; 张传锋
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-28
Anticipated expiration: 2040-04-01
Also published as: CN111460104B

Abstract

本发明公开一种行业自适应的智能搜索方法，本方法通过划分业务词、通用词，提升业务词权重，降低通用词权重，减低与主题相关性低的词语对搜索结果的影响。自动更新有效性阈值和唯一性阈值，提升搜索系统灵活性。层级化搜索提升搜索效率。联合句子几何特征、词语边缘分布、词语主题联合分布以及词语分布语义等要素，提升搜索与目标主题的匹配度，提升搜索质量。基于搜索结果的自学习反馈机制支撑搜索方法的迭代优化。

Description

行业自适应的智能搜索方法

技术领域

本发明涉及一种行业自适应的智能搜索方法，属于人工智能技术领域。

背景技术

随着互联网的爆炸式发展，网上各种信息呈指数级增长，这导致用户的要查询的信息湮没在庞大繁杂的互联网大数据中。如何有效地提高用户的搜索效率以及搜索质量成为焦点问题。

目前用户获取信息无非两种渠道，一种通过类似谷歌、百度的通用搜索获取信息，但是搜索结果往往包括各个方面的信息，用户需要进行二次筛选和判断，效率偏低，用户认知负担偏高，并且信息的真实性和时效性无法得到保证。

第二种通过行业相关搜索系统获取相对专业准确的信息。行业系统分类清晰，搜索结果有所保证，但是搜索范围局限。由于行业搜索系统与垂直行业业务联系紧密，导致面向行业的搜索系统定制化程度高，自适应能力差。

发明内容

本发明要解决的技术问题是提供一种行业自适应的智能搜索方法，通过具体业务数据分析自适应调整搜索系统参数，提高搜索效率及质量。

为了解决所述技术问题，本发明采用的技术方案是：行业自适应的智能搜索方法，其特征在于：包括以下步骤：

S01)、收集目标行业的原始数据，然后对原始数据进行数据预处理，从而将不同来源的行业原始数据转变为格式统一、内容一致、低缺失值、无噪声的业务数据；

S02)、对业务数据进行统计特征分析，然后根据词语的统计特征选取业务词、通用词和停用词集合；

S03)、建立业务主题层级关系，从而输出层级化业务主题知识；

S04)、根据业务主题层级划分训练集合，从而输出不同的主题层级综合训练样本；

S05)、基于不同主题层级综合训练样本进行训练，首先遍历每级主题，计算业务主题的知识分布，获取到主题知识分布后，计算词语与主题的相关度，计算词语与主题的相关度时，通过设置词语增益权重从而对业务词和通用词赋予差异化权重；

S06)、系统接收到搜索信息后首先进行搜索信息预处理，然后根据业务词集合和通用词集合完成词语的映射和归一化；

S07)、遍历搜索信息不同层级的主题并判断搜索信息中是否存在符合人工规则的主题，如果存在，则直接转入规则匹配并展示匹配结果，如果没有，则直接计算搜索信息与业务主题的相关度、搜索信息与业务主题的几何相似度，最后求其两者加权和作为搜索信息与主题的相似度，根据搜索信息与不同业务主题相似度高低进行降序排列，输出相似度信息T，相似度信息T为一条搜索信息与N个业务主题的相似度信息，N为0或正整数；

S08)、多级阈值筛选，包括有效性阈值筛选和唯一性阈值筛选，有效性阈值和唯一性阈值根据搜索信息与业务主题的相似度信息动态调整；如果步骤S07中输出多条搜索信息与业务主题的相似度信息，则将每个搜索信息与业务主题的相似度信息分别与有效性阈值、唯一性阈值进行比较，如果相似度信息低于有效性阈值，则将其对应的业务主题删除，如果第一条业务主题对应的相似度信息高于唯一性阈值，则仅保留第一条业务主题，其他情况保持搜索结果不变；

S09)、层级化搜索，如果业务主题仅有一条且具有子主题，则直接进入下一层级的主题搜索过程，否则直接展示目标业务主题。

进一步的，有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和，唯一性阈值为搜索信息与不同业务主题相关度的次高值的λ倍，λ＞1。

进一步的，λ≥1.3。

进一步的，步骤S04中，依据业务主题的层级不同，本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。

进一步的，步骤S05中，计算业务主题知识分布的过程为：遍历业务词集合和通用词集合，统计每个词语在每个主题训练样本中出现的次数

然后统计每个词语在多少个主题中出现过，记作

并计算每个主题的长度

为当前主题下所有训练样本词语的个数和除以训练样本个数，最后计算主题相对长度

公式为：

至此完成业务主题的知识分布。

进一步的，步骤S05或者S08中，计算业务主题层级划分训练集合或者搜索信息中词语与业务主题相关度的公式为：

其中Gain(word_i)表示词语增益权重，w表示权重，w＞1，BW表示业务词集合，GW代表通用词集合，SW代表停用词集合，α表示调节主题相对长度对相关度影响的参数，α越高主题相对长度对相关度的影响越低，反之亦然，N表示训练集合的样本总数。

进一步的，步骤S08中，搜索信息与业务主题的几何相似度Geo(query,topic_j)的计算公式为：

L_query为搜索信息的问题长度，搜索信息与业务主题的相似度sim(query,topic_j)的计算公式为：

Corr(word_i,topic_j)表示搜索信息中词语与业务主题的相关度，β表示调节几何相似度、词语相关度对相似度影响的参数，β越高几何相似度对最终结果的影响越高，反之亦然。

进一步的，α＝0.5，β＝0.2。

进一步的，搜索信息与业务主题的相关度的计算方法为：遍历搜索信息中所有的实体信息词语，计算每个实体信息词语与业务主题的相关度并累加和作为搜索信息与业务主题的相关度。

进一步的，词语的统计特征包括词语的词频和逆文档频率，计算每个词语的TF-IDF数值并取均值作为平均贡献度，如果某个词语的贡献度高于平均贡献度，则词语隶属于业务词集合，反之则隶属于通用词集合。

本发明的有益效果：本发明通过划分业务词、通用词，提升业务词权重，降低通用词权重，减低与主题相关性低的词语对搜索结果的影响。自动更新有效性阈值和唯一性阈值，提升搜索系统灵活性。层级化搜索提升搜索效率。联合句子几何特征、词语边缘分布、词语主题联合分布以及词语分布语义等要素，提升搜索与目标主题的匹配度，提升搜索质量。基于搜索结果的自学习反馈机制支撑搜索方法的迭代优化。

附图说明

图1为本发明第一部分的流程图；

图2为本发明第二部分的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明和限定。

实施例1

本实施例公开一种行业自适应的智能搜索方法，如图1、2所示，包括以下步骤：

S01)、数据收集，通过网络爬虫、行业法律法规文献等收集目标行业的原始书信息并保存到数据库中。具体的，在与目标行业相关信息的网站爬取网页数据，有限政府官网或者行业具有代表性的网站保证数据信息的真实性，同时建立下载更新策略，启动定时更新任务，保证数据信息的实时性。

针对目标行业，人为主动收集相关法律法规或者要求目标客户提供行业脱敏信息、政策的实际落地举措和施行方法，从而使数据真实性和可操作性更强。

S02)、数据预处理，将不同来源的原始数据进行清洗和标准化处理，具体包括明显噪声数据和重复数据的删除、填补缺失值、指代实体化、不一致数据处理、矛盾数据排除以及异构数据的同构化转变等操作。从而数据预处理，将不同来源的行业原始数据转变为格式统一、内容一致、低缺失值、无噪声的业务数据。

S03)、统计特征分析，首先完成业务数据文本的实体信息抽取标记，然后统计每条业务数据中实体信息词频、实体的逆文档频率，业务数据的几何特征等统计特征。

所述实体抽取指利用自然语言处理技术实现自然语言分词，抽取高频无意义词汇，例如的、我、吗以及标点符号等，形成停用词集合SW，仅保留具体实体信息词汇，最后得到业务数据的词语集合；然后对分词后的词语列表进行词语的拓展和归一化。

本实施例中，词语拓展和归一化包括依据词语的分布式语义进行行业词语的拓展和归一化，也可在行业专家的指导下人为添加。其中词语的分布式语义可采用word2Vec或Glove等方法获得，根据词语向量之间的余弦相似度衡量不同词语之间的语义相似性。为了进一步区分词语在不同行业之间的语义差异性可采用预训练模型加微调机制，即直接采用第三方已训练完成的预训练模型，然后利用业务数据对模型进行微调使得词语语义更贴合具体行业应用环境。

实体信息的词频指的是实体信息在特定的业务数据中出现了多少次，逆文档频率指的是所有文档数量除以包含特定词语的文档数量，再通过对数运算获得最后的值。如果所该特征项仅存在于个别的文档当中，说明该特征项的集中程度越高，它对文档类别的贡献率越高。

S04)、抽取业务词和通用词，根据词语的统计特征选取业务词和通用词，业务词和通用词依据词语的词频和逆文档频率确定。词频体现词语在对每个文档的贡献度差异性，而逆文档频率体现词语的对所有文档的平均贡献度。计算每个词语的TF-IDF数值并取均值作为平均贡献度。如果某个词语的贡献度高于平均贡献度，则词语隶属业务词集合BW，反之则属于通用词集合GW。

S05)、建立业务主题层级关系，输出层级化业务主题知识。行业网络数据、法律法规文档、政策实施细则等具备基本的层级关系，这些层级关系是经过专业从业人员编写或认可的，故在建立业务主题层级关系时可以上述层级关系为准。

层级关系的细化程度取决于搜索方法面向的群体。如果面向行业从业人员，可以在行业专家的指导下完成层级关系的建立、调整以及优化。如果面向普通用户上述层级关系已满足基本需要。

S06)、根据业务主题层级划分训练集合输出不同的主题层级综合训练样本。具体过程为：依据业务主题的层级不同，本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。例如：个税如何缴纳、个税如何补缴、个税减免政策；每句话均有一个主题，但是这三个都属于个税主题，所以三句话均是个税主题的训练样本。

S07)、不同主题层级综合训练样本分割整合完成后，遍历每级主题计算业务主题的知识分布。

主题业务知识分布的计算过程为：遍历业务词集合BW和通用词集合GW，统计每个词语在每个主题训练样本中出现的次数

然后统计每个词语在多少个主题中出现过，记作

并计算每个主题的长度

公式为：

至此完成业务主题的知识分布。

获取到主题知识分布后计算词语与业务主题的相关度，相关度越大说明特定词语对特定主题贡献度越大，即当搜索信息中出现该词语，那么搜索内容与该主题的匹配度更高，相关度的具体计算方法为：

其中Gain(word_i)表示词语增益权重，w表示权重，w＞1，在本实施例中业务词的权重为w，通用词权重为

停用词汇增益权重为零。权重w越大，业务词汇与主题的相关度越高而通用词汇与主题的相关程度有所降低，反之亦然。

BW表示业务词集合，GW代表通用词集合，SW代表停用词集合，α表示调节主题相对长度对相关度影响的参数，α越高主题相对长度对相关度的影响越低，反之亦然，N表示训练集合的样本总数。

本实施例中，α＝0.5。

S08)、系统接收到搜索信息后，首先进行搜索信息预处理，包括分词和归一化，即保留业务词和通用词，过滤停用词，通知根据业务词集合和通用词集合完成词语的映射和归一化。

S09)、遍历搜索信息不同层级的主题并判断搜索信息中是否存在符合人工规则的主题，如果存在，则直接转入规则匹配并展示匹配结果，如果没有，则直接计算搜索信息与业务主题的相关度、搜索信息与业务主题的几何相似度，最后求其两者加权和作为搜索信息与主题的相似度，根据搜索信息与不同业务主题相似度高低进行降序排列，输出相似度信息T，相似度信息T为一条搜索信息与N个业务主题的相似度信息，N为0或正整数。

本实施例中，搜索信息与业务主题的几何相似度Geo(query,topic_j)的计算公式为：

Corr(word_i,topic_j)表示搜索信息中词语与业务主题的相关度，按照公式2计算或者直接调用公式2的计算结果，β表示调节几何相似度、词语相关度对相似度影响的参数，β越高几何相似度对最终结果的影响越高，反之亦然。本实施例中，β＝0.2。

本实施例通过业务人工规则定义实现用户干预搜索结果。人工规则的优先级最高，如果存在人工规则，则直接按照规则模型匹配并输出结果。人工规则方便用户调整搜索结果，保证搜索的质量和真实性，同时方便添加更新时效性强的信息。如客户搜索“疫情期间如何缴纳个税”，符合人工规则“疫情”，则直接展示疫情期间个税的缴纳方法。

人工规则定义应该在充分了解业务知识的前提下或者行业专家的指导下建立，提升模型自身的准确性以及泛化能力。

搜索信息与业务主题的相关度具体的计算方法如下：遍历搜索信息中所有的实体信息，计算实体信息与业务主题的相关度并求取累加和作为搜索与业务主题的相关度。

S10)、多级阈值筛选，用于衡量搜索结果的有效性和唯一性，包括有效性阈值筛选和唯一性阈值筛选，有效性阈值和唯一性阈值根据搜索信息与业务主题的相似度信息动态调整。

如果步骤S09中输出多条搜索信息与业务主题的相似度信息，则将每个搜索信息与业务主题的相似度信息分别与有效性阈值、唯一性阈值进行比较，如果相似度信息低于有效性阈值，则将其对应的业务主题删除，如果第一条业务主题对应的相似度信息高于唯一性阈值，则仅保留第一条业务主题，其他情况保持搜索结果不变。同时搜索结果可用于反馈自学习，实现行业搜索系统的迭代优化升级。

S11)、层级化搜索，如果业务主题仅有一条且具有子主题，则直接进入下一层级的主题搜索过程，否则直接展示目标业务主题。

本实施例中，有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和，唯一性阈值为搜索信息与不同业务主题相似度的次高值的λ倍，λ＞1。

λ的值越大，搜索结果的多样性越大，反之亦然。在生产实践中为保证搜索结果的多样性，提高搜索结果的TopN的准确率，λ取值一般不小于1.3。

本实施例所述搜索方法具有自学习机制。结合行业具体业务特性分析日志记录，人工筛选后作为新的训练数据对模型完成深度的训练和提升，形成从业务应用闭环，逐步提升搜索方法性能。充分挖掘用户搜索信息，抽象行业用户群体行为和趋势，整合统计分析业务数据，抽取热点问题、高频问题，预测发展趋势，实现热点问题实时更新以及高频问题推荐，提升搜素搜方法的使用效率和效果，有利提升用户体验。

本实施例所述搜索方法提出在搜索过程中区分业务词和通用词，通过提升业务词权重，降低通用词的权重，降低与主题相关性低的词语对搜索结果的影响，缓解或解决由样本带来的语义偏差问题。计算词语权重的方法不仅仅限于TFIDF，业务词和通用词划分标准也不仅仅限于权重均值。

提出业务词和通用词差异化增益的机制。其中关于业务词和通用词的增益设定不仅仅限于专利中公式(3)体现的形式。只要对业务词和通用词赋予差异化权重均属于专利的保护范围

提出一种构建行业语义库方法。计算利用词语的嵌入式表示之间的空间距离，空间距离不仅仅限于向量之间余弦距离，欧式距离等。同时词语的嵌入式表示也不仅仅限于通过Word2Vec获取的表示结果。同时基于通用或者开放的第三方模型，利用行业数据进行微调获取词语分布式表示的方法也在本专利的保护范围之内。

本方法通过提高行业搜索系统自适应性，该专利提出的搜索方法从数据预处理模块，阈值动态设定机制，层级化搜索机制，文本相似度计算等搜索各个阶段针对行业进行优化，提高行业搜索易用性和高效性。能够进一步缓解信息不对称带来的不良影响，加速行业知识在从业人员和人民大众的知识流通，提升行业政策的宣贯程度以及线上线下的服务质量，同时协助行业用户提高对行业认知，方便自我日常工作生活。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.行业自适应的智能搜索方法，其特征在于：包括以下步骤：

S02)、对业务数据进行统计特征分析，然后根据词语的统计特征选取业务词和通用词；

2.根据权利要求1所述的行业自适应的智能搜索方法，其特征在于：有效性阈值为搜索信息与业务主题相关度最小值和第二小值之和，唯一性阈值为搜索信息与不同业务主题相关度的次高值的λ倍，λ＞1。

3.根据权利要求2所述的行业自适应的智能搜索方法，其特征在于：λ≥1.3。

4.根据权利要求1所述的行业自适应的智能搜索方法，其特征在于：步骤S04中，依据业务主题的层级不同，本级主题的训练样本加上本级主题下所有子主题的所有训练样本作为本级主题的综合训练样本。

5.根据权利要求1所述的行业自适应的智能搜索方法，其特征在于：步骤S05中，计算业务主题知识分布的过程为：遍历业务词集合和通用词集合，统计每个词语在每个主题训练样本中出现的次数

然后统计每个词语在多少个主题中出现过，记作

并计算每个主题的长度

公式为：

至此完成业务主题的知识分布。

6.根据权利要求5所述的行业自适应的智能搜索方法，其特征在于：步骤S05或者S08中，计算业务主题层级划分训练集合或者搜索信息中词语与业务主题相关度的公式为：

其中Gain(word_i)表示词语增益权重，w表示权重，w＞1，BW表示业务词集合，GW代表通用词集合，SW代表停用词集合，α表示调节主题相对长度对相关度影响的参数，α越高主题相对长度对相关度的影响越低，反之亦然，N表示训练集合的文档总数。

7.根据权利要求6所述的行业自适应的智能搜索方法，其特征在于：步骤S08中，搜索信息与业务主题的几何相似度Geo(query,topic_j)的计算公式为：

8.根据权利要求7所述的行业自适应的智能搜索方法，其特征在于：α＝0.5，β＝0.2。

9.根据权利要求7所述的行业自适应的智能搜索方法，其特征在于：搜索信息与业务主题的相关度的计算方法为：遍历搜索信息中所有的实体信息词语，计算每个实体信息词语与业务主题的相关度并累加和作为搜索信息与业务主题的相关度。

10.根据权利要求1所述的行业自适应的智能搜索方法，其特征在于：词语的统计特征包括词语的词频和逆文档频率，计算每个词语的TF-IDF数值并取均值作为平均贡献度，如果某个词语的贡献度高于平均贡献度，则词语隶属于业务词集合，反之则隶属于通用词集合。