CN113900995A

CN113900995A - 一种税务智能搜索文件的方法

Info

Publication number: CN113900995A
Application number: CN202010572183.XA
Authority: CN
Inventors: 沈新力
Original assignee: Jiangsu Tax Software Technology Co ltd
Current assignee: Jiangsu Tax Software Technology Co ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-01-07

Abstract

发明公开了一种税务智能搜索文件的方法，含连接需储存文件机器的数据接口，移动设备和语义识别进行全部文件搜索，具体为：步骤1：将移动设备接入电脑，输入搜索目标词；步骤2：优先搜索文件名包含目标词的文件，将其导入移动设备；步骤3：通过语义识别，识别文件名未包含搜索词的文件，并判断文件中出现的搜索词是否与要求意义相同，若相同，将文件导入移动设备；步骤4：搜索文件名与文件都不包含关键词的文件，判断文件是否与关键词相关，若相关，将文件导入移动设备。本发明通过改变搜索方法，解决了搜索关键字和实际内容不相符，或因文件名未体现出文章内容的问题，提高了搜索文件的准确性。

Description

一种税务智能搜索文件的方法

技术领域

本发明涉及一种搜索方法，特别是涉及一种税务智能搜索文件的方法，属于人工智能搜索领域。

背景技术

近年来，计算机的使用越来越平凡，越来越多的人不再使用纸质文件，开始将各类文档都存储于计算机，然而当文件数量急剧增加的时候，搜索文件变得无比重要，传统的搜索只能搜索出包含关键词的文件，因此导致很多重要文件的丢失。所以，就需要一种可以根据文章内容进行搜索的搜索方法来解决搜索关键字和实际内容不相符，或因文件名未体现出文章内容的问题。

发明内容

本发明的主要目的是为了提供一种税务智能搜索文件的方法，方便快速搜索文件和精确得到所有相关文件。

本发明的目的可通过采用如下技术方案达到：

本发明提出了一种税务智能搜索文件的方法，包含连接需储存文件机器的数据接口，移动设备和语义识别进行全部文件搜索，具体为：

步骤1：将移动设备接入电脑，输入搜索目标词；

步骤2：优先搜索文件名包含目标词的文件，将其导入移动设备；

步骤3：通过语义识别，识别文件名未包含搜索词的文件，并判断文件中出现的搜索词是否与要求意义相同，若相同，将文件导入移动设备；

步骤4：搜索文件名与文件都不包含关键词的文件，判断文件是否与关键词相关，若相关，将文件导入移动设备。

更进一步，包括模型建立：

1、对预料进行预处理，包括通过采用BMES标注集，进行CRF分词；

2、训练HMM-NGram分词模型，从而得到，单词词性词典，二元接续词典，词性转移矩阵。

3、基于HMM-NGram分词模型，采用SVMC(支持向量机分类器)训练命名实体识别模型，实现了人名、地名、机构名及税务专有名词的模型训练。

4、基于上面的模型训练得到的词典，训练词向量模型，从而生成word2vec模型。

更进一步，语义识别中的智能搜索：

1、计算两个词语之间的距离归一化处理，输出0到1之间的数值或者相似度；

2、根据归一化处理后的数值，设定相似度阈值，通过相似度阈值搜索查找出与某个词语最相似的N个词语；

3、短文本的相似度计算；

4、人工智能搜索

5、文档相似度计算

使用TF-IDF算法，计算出文本中各词的余弦相似度，作为两篇文档的相似度，算法公式如下：

获取TF词频，并乘以IDF权重，分别得到S1,S2的TF*IDF。

文本分类，基于TextCNN算法进行，TextCNN是利用卷积神经网络对文本进行分类的算法。

更进一步，判断文件内容中是否出现搜索词的具体：读取后智能分词，与词性标注，分词后内容，过滤无意义的文字，清洗后的文本，输入搜索词，是否包含搜索词，输出。

更进一步，判断文件是否与关键词相关：在上述的输入搜索词的基础上，添加一个词向量模型计算，得到相似词语后输入搜索。

更进一步，过滤包含关键词但文件内容与关键词无关，或文件中关键词词义不同的文件包括从已收纳文件缓存区中提取一个文件，经过分词、聚类分析后，输入搜索词，判定是否是自定义分类词以及是否是聚类词，然后对处理的文件和输入搜索词比对判断该文件是否属于该类别，如果是则输出，如果不是，从文件缓冲区移除。

更进一步，智能打标签，读取文件，自定义词典分词，词性标注后，对文本进行聚类、实体命名、语义分析后关键词提取，过滤清洗，形成标签，然后保存到文本与标签的映射至设备；文本与标签的对应关系，会以map形式序列化到设备中。

本发明的有益技术效果:按照本发明的税务智能搜索文件的方法，本发明提供的税务智能搜索文件的方法，通过改变税务智能搜索文件的方法，解决了搜索关键字和实际内容不相符，或因文件名未体现出文章内容的问题，提高了搜索文件的准确性。

附图说明

图1为本发明搜索关键词流程图。

图2为本发明词向量模型流程图。

图3为本发明聚类流程图。

图4为本发明打标签流程图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本实例提供一种税务智能搜索文件的方法，包括连接需储存文件机器的数据接口，移动设备和语义识别进行全部文件搜索:

步骤1：将移动设备接入电脑，输入搜索目标词。

步骤2：优先搜索文件名包含目标词的文件，将其导入移动设备。

步骤3:通过语义识别，识别文件名未包含搜索词的文件，并判断文件中出现的搜索词是否与要求意义相同，若相同，将文件导入移动设备。

在一些实例中，为提取搜索文件，移动设备包含存储和传输文件的功能。

在一些实例中，有些文件包含搜索关键词却与关键词无关，通过语义识别可将此类文章过滤。

在一些实例中，有些文件名与文件内容不一致，通过智能分析文章，可提取文件主要内容，获得与关键词相关的文章。

在一些实中，关键词搜索相似，通过语义识别第一次搜索结束后，就可以给文件打上标签，在搜索类似关键词是则可以直接调出文章，从而减少运行时间。

例如，某文件文件名为20190701.doc，实际内容为出口退税，传统搜索就无法获取这篇文章，本发明通过智能分析，可以提取文件主要内容并获取此文章。

语料来源为中国税务网、税法百度百科、国家税务总局等网站；

训练模型

智能搜索

1、计算两个词语之间的距离归一化处理，输出0到1之间的数值或者相似度，比如

“增值税”与“所得税”的距离为(0.8253421)

“增值税”与“北京市税务局”的距离为(0.464522)

2、根据归一化处理后的数值，设定相似度阈值，通过相似度阈值搜索查找出与某个词语最相似的N个词语，比如

“江苏”相似的词语有“山东＝0.81871825,辽宁＝0.8186185,稽查局＝0.323654，税源＝0.207521，增值税＝0.203456”

3、短文本的相似度计算，比如

“因其属于小规模纳税人，不能开具税率为11％的增值税专用发票”,这段文字与下列词语之间的相似度如下：

“增值税＝0.793543，专用发票＝0.803245，税收＝0.376532，纳税＝0.645653”；

4、人工智能搜索

搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身，而是透过现象看本质，准确地捕捉到用户所输入语句后面的真正意图，并以此来进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。

电脑和计算机这两个词在人们写文章时经常混用，当用户输入电脑或计算机时，会认为是同义词。而同义词判断就是基于上述相似度判定的。

5、文档相似度计算

使用TF-IDF算法，计算出文本中各词的余弦相似度，作为两篇文档的相似度。算法公式如下：

获取TF词频，并乘以IDF权重，分别得到S1,S2的TF*IDF。

一、判断文件内容中是否出现搜索词的具体步骤如图1所示

读取后智能分词，与词性标注，分词后内容，过滤无意义的文字，清洗后的文本，输入搜索词，是否包含搜索词，输出。

传统的文件包含不能准确的找到需要的含义，有些词，在一些环境下的词性可能不同。“纳税调整”，在一些情况下可能是动词，也有可能是名词或其他词，而一般对于使用者的期望，名词的含义远大于其他词性的含义，对于其他的词性(如：副词，介词，语气词等等)基本上可以忽略。

二、判断文件是否与关键词相关如图2所示

在上述的输入搜索词的基础上，添加一个词向量模型计算，得到相似词语后输入搜索。

判断相似度是一个比较抽象的过程，需要大量的语料进行训练，从而产生词向量模型。基于训练好的模型，可以计算词语之间的语义距离，进而找出某个词语最相似的几个词语。

三、过滤包含关键词但文件内容与关键词无关，或文件中关键词词义不同的文件如图3所示

包括从已收纳文件缓存区中提取一个文件，经过分词、聚类分析后，输入搜索词，判定是否是自定义分类词以及是否是聚类词，然后对处理的文件和输入搜索词比对判断该文件是否属于该类别，如果是则输出，如果不是，从文件缓冲区移除。

若只是通过词分析文本是否符合输入条件还是比较片面，可能会出现过渡收纳的情况，该步骤就是，尽可能剔除过渡收纳的文本。

聚类分析是对文档进行的预处理，训练出词袋向量模型，通过模型计算出文本所属的类别簇。判断搜索词是否存在于该类别簇中。

四、智能打标签，如图4，读取文件，自定义词典分词，词性标注后，对文本进行聚类、实体命名、语义分析后关键词提取，过滤清洗，形成标签，然后保存到文本与标签的映射至设备。

传统的分词打标有一定的误差，智能打标能够通过对文本语义的分析，进行更精准的打标。通过对文本的词性分析，文本的聚类以及上下文成型的概率分析，从而产生更能反映文本意义的标签。前提也是需要进行大数据的清洗和训练。

该设备具有一定的存储功能，因此文本与标签的对应关系，会以map形式序列化到设备中。在进行智能搜索时，先进行反序列化提取，然后进行文本匹配。在实施多次查询时，无需每次查询都进行打标，只需使用原来的序列化模型就可。从而提高重复使用效率。

并且，在每次查询时，该模型具有一定的自学习能力，对于一些新词，或新的概念，在使用的过程中会自我学习和训练，无需每次都进行全量学习。

举例：

被告稽查局于2017年1月13日作出苏园国税稽处〔2017〕3号《税务处理决定书》(以下简称《税务处理决定书》)，认定原告中辰公司91笔从无锡亚绍贸易有限公司(以下简称亚绍公司)进货出口业务虚假，共涉及出口额12658228.88美元，增值税专用发票696份，金额65371894.94元，税额11113221.20元，涉及已退税额10746699.37元，未退税额2668341.63元，合计涉及退税额13415041.00元，决定对原告中辰公司追缴骗取的退税款10746699.37元，不予退税366522.83元。

综上所述，在本实施例中，本实施例提供的计算机本地智能搜索方法，通过语义识别过滤了与关键词无关的文章，避免出现文件内的关键词与搜索关键词词义不相符的情况；更准确的找到了文件名不包含关键词但文件与关键词关系紧密的文件，避免了遗漏相关文件或遗忘相关文件文件名的问题；通过最开始的训练，不会造成多次使用后影响之前的搜索结果而出现巨大的混乱；搜索到的文件将自动传入移动设备防止丢失；为已经搜索过的文章打上标签，在之后搜索近义词或相同词时重复搜索全部文件，大大减少了计算机运算量，提高了搜索速度和效率。

以上，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种税务智能搜索文件的方法，其特征在于包含连接需储存文件机器的数据接口，移动设备和语义识别进行全部文件搜索，具体为：

步骤1：将移动设备接入电脑，输入搜索目标词；

2.根据权利要求1所述的税务智能搜索文件的方法，其特征在于包括模型建立：

2、训练HMM-NGram分词模型，从而得到，单词词性词典，二元接续词典，词性转移矩阵；

3、基于HMM-NGram分词模型，采用SVMC(支持向量机分类器)训练命名实体识别模型，实现了人名、地名、机构名及税务专有名词的模型训练；

3.根据权利要求1所述的税务智能搜索文件的方法，其特征在于语义识别中的智能搜索：

3、短文本的相似度计算；

4、人工智能搜索；

5、文档相似度计算；

获取TF词频，并乘以IDF权重，分别得到S1,S2的TF*IDF；

4.根据权利要求1所述的税务智能搜索文件的方法，其特征在于判断文件内容中是否出现搜索词的具体：读取后智能分词，与词性标注，分词后内容，过滤无意义的文字，清洗后的文本，输入搜索词，是否包含搜索词，输出。

5.根据权利要求1所述的税务智能搜索文件的方法，其特征在于判断文件是否与关键词相关：在上述的输入搜索词的基础上，添加一个词向量模型计算，得到相似词语后输入搜索。

6.根据权利要求1所述的税务智能搜索文件的方法，其特征在于过滤包含关键词但文件内容与关键词无关，或文件中关键词词义不同的文件包括从已收纳文件缓存区中提取一个文件，经过分词、聚类分析后，输入搜索词，判定是否是自定义分类词以及是否是聚类词，然后对处理的文件和输入搜索词比对判断该文件是否属于该类别，如果是则输出，如果不是，从文件缓冲区移除。

7.根据权利要求1所述的税务智能搜索文件的方法，其特征在于：智能打标签，读取文件，自定义词典分词，词性标注后，对文本进行聚类、实体命名、语义分析后关键词提取，过滤清洗，形成标签，然后保存到文本与标签的映射至设备；文本与标签的对应关系，会以map形式序列化到设备中。