CN113900995A - 一种税务智能搜索文件的方法 - Google Patents

一种税务智能搜索文件的方法 Download PDF

Info

Publication number
CN113900995A
CN113900995A CN202010572183.XA CN202010572183A CN113900995A CN 113900995 A CN113900995 A CN 113900995A CN 202010572183 A CN202010572183 A CN 202010572183A CN 113900995 A CN113900995 A CN 113900995A
Authority
CN
China
Prior art keywords
file
search
word
searching
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010572183.XA
Other languages
English (en)
Inventor
沈新力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tax Software Technology Co ltd
Original Assignee
Jiangsu Tax Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tax Software Technology Co ltd filed Critical Jiangsu Tax Software Technology Co ltd
Priority to CN202010572183.XA priority Critical patent/CN113900995A/zh
Publication of CN113900995A publication Critical patent/CN113900995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了一种税务智能搜索文件的方法,含连接需储存文件机器的数据接口,移动设备和语义识别进行全部文件搜索,具体为:步骤1:将移动设备接入电脑,输入搜索目标词;步骤2:优先搜索文件名包含目标词的文件,将其导入移动设备;步骤3:通过语义识别,识别文件名未包含搜索词的文件,并判断文件中出现的搜索词是否与要求意义相同,若相同,将文件导入移动设备;步骤4:搜索文件名与文件都不包含关键词的文件,判断文件是否与关键词相关,若相关,将文件导入移动设备。本发明通过改变搜索方法,解决了搜索关键字和实际内容不相符,或因文件名未体现出文章内容的问题,提高了搜索文件的准确性。

Description

一种税务智能搜索文件的方法
技术领域
本发明涉及一种搜索方法,特别是涉及一种税务智能搜索文件的方法,属于人工智能搜索领域。
背景技术
近年来,计算机的使用越来越平凡,越来越多的人不再使用纸质文件,开始将各类文档都存储于计算机,然而当文件数量急剧增加的时候,搜索文件变得无比重要,传统的搜索只能搜索出包含关键词的文件,因此导致很多重要文件的丢失。所以,就需要一种可以根据文章内容进行搜索的搜索方法来解决搜索关键字和实际内容不相符,或因文件名未体现出文章内容的问题。
发明内容
本发明的主要目的是为了提供一种税务智能搜索文件的方法,方便快速搜索文件和精确得到所有相关文件。
本发明的目的可通过采用如下技术方案达到:
本发明提出了一种税务智能搜索文件的方法,包含连接需储存文件机器的数据接口,移动设备和语义识别进行全部文件搜索,具体为:
步骤1:将移动设备接入电脑,输入搜索目标词;
步骤2:优先搜索文件名包含目标词的文件,将其导入移动设备;
步骤3:通过语义识别,识别文件名未包含搜索词的文件,并判断文件中出现的搜索词是否与要求意义相同,若相同,将文件导入移动设备;
步骤4:搜索文件名与文件都不包含关键词的文件,判断文件是否与关键词相关,若相关,将文件导入移动设备。
更进一步,包括模型建立:
1、对预料进行预处理,包括通过采用BMES标注集,进行CRF分词;
2、训练HMM-NGram分词模型,从而得到,单词词性词典,二元接续词典,词性转移矩阵。
3、基于HMM-NGram分词模型,采用SVMC(支持向量机分类器)训练命名实体识别模型,实现了人名、地名、机构名及税务专有名词的模型训练。
4、基于上面的模型训练得到的词典,训练词向量模型,从而生成word2vec模型。
更进一步,语义识别中的智能搜索:
1、计算两个词语之间的距离归一化处理,输出0到1之间的数值或者相似度;
2、根据归一化处理后的数值,设定相似度阈值,通过相似度阈值搜索查找出与某个词语最相似的N个词语;
3、短文本的相似度计算;
4、人工智能搜索
5、文档相似度计算
使用TF-IDF算法,计算出文本中各词的余弦相似度,作为两篇文档的相似度,算法公式如下:
Figure BDA0002549779830000021
Figure BDA0002549779830000022
获取TF词频,并乘以IDF权重,分别得到S1,S2的TF*IDF。
文本分类,基于TextCNN算法进行,TextCNN是利用卷积神经网络对文本进行分类的算法。
更进一步,判断文件内容中是否出现搜索词的具体:读取后智能分词,与词性标注,分词后内容,过滤无意义的文字,清洗后的文本,输入搜索词,是否包含搜索词,输出。
更进一步,判断文件是否与关键词相关:在上述的输入搜索词的基础上,添加一个词向量模型计算,得到相似词语后输入搜索。
更进一步,过滤包含关键词但文件内容与关键词无关,或文件中关键词词义不同的文件包括从已收纳文件缓存区中提取一个文件,经过分词、聚类分析后,输入搜索词,判定是否是自定义分类词以及是否是聚类词,然后对处理的文件和输入搜索词比对判断该文件是否属于该类别,如果是则输出,如果不是,从文件缓冲区移除。
更进一步,智能打标签,读取文件,自定义词典分词,词性标注后,对文本进行聚类、实体命名、语义分析后关键词提取,过滤清洗,形成标签,然后保存到文本与标签的映射至设备;文本与标签的对应关系,会以map形式序列化到设备中。
本发明的有益技术效果:按照本发明的税务智能搜索文件的方法,本发明提供的税务智能搜索文件的方法,通过改变税务智能搜索文件的方法,解决了搜索关键字和实际内容不相符,或因文件名未体现出文章内容的问题,提高了搜索文件的准确性。
附图说明
图1为本发明搜索关键词流程图。
图2为本发明词向量模型流程图。
图3为本发明聚类流程图。
图4为本发明打标签流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例对本发明作进一步详细的描述,但本发明的实施方式不限于此。
本实例提供一种税务智能搜索文件的方法,包括连接需储存文件机器的数据接口,移动设备和语义识别进行全部文件搜索:
步骤1:将移动设备接入电脑,输入搜索目标词。
步骤2:优先搜索文件名包含目标词的文件,将其导入移动设备。
步骤3:通过语义识别,识别文件名未包含搜索词的文件,并判断文件中出现的搜索词是否与要求意义相同,若相同,将文件导入移动设备。
步骤4:搜索文件名与文件都不包含关键词的文件,判断文件是否与关键词相关,若相关,将文件导入移动设备。
在一些实例中,为提取搜索文件,移动设备包含存储和传输文件的功能。
在一些实例中,有些文件包含搜索关键词却与关键词无关,通过语义识别可将此类文章过滤。
在一些实例中,有些文件名与文件内容不一致,通过智能分析文章,可提取文件主要内容,获得与关键词相关的文章。
在一些实中,关键词搜索相似,通过语义识别第一次搜索结束后,就可以给文件打上标签,在搜索类似关键词是则可以直接调出文章,从而减少运行时间。
例如,某文件文件名为20190701.doc,实际内容为出口退税,传统搜索就无法获取这篇文章,本发明通过智能分析,可以提取文件主要内容并获取此文章。
语料来源为中国税务网、税法百度百科、国家税务总局等网站;
训练模型
1、对预料进行预处理,包括通过采用BMES标注集,进行CRF分词;
2、训练HMM-NGram分词模型,从而得到,单词词性词典,二元接续词典,词性转移矩阵。
3、基于HMM-NGram分词模型,采用SVMC(支持向量机分类器)训练命名实体识别模型,实现了人名、地名、机构名及税务专有名词的模型训练。
4、基于上面的模型训练得到的词典,训练词向量模型,从而生成word2vec模型。
智能搜索
1、计算两个词语之间的距离归一化处理,输出0到1之间的数值或者相似度,比如
“增值税”与“所得税”的距离为(0.8253421)
“增值税”与“北京市税务局”的距离为(0.464522)
2、根据归一化处理后的数值,设定相似度阈值,通过相似度阈值搜索查找出与某个词语最相似的N个词语,比如
“江苏”相似的词语有“山东=0.81871825,辽宁=0.8186185,稽查局=0.323654,税源=0.207521,增值税=0.203456”
3、短文本的相似度计算,比如
“因其属于小规模纳税人,不能开具税率为11%的增值税专用发票”,这段文字与下列词语之间的相似度如下:
“增值税=0.793543,专用发票=0.803245,税收=0.376532,纳税=0.645653”;
4、人工智能搜索
搜索引擎的工作不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索,从而更准确地向用户返回最符合其需求的搜索结果。
电脑和计算机这两个词在人们写文章时经常混用,当用户输入电脑或计算机时,会认为是同义词。而同义词判断就是基于上述相似度判定的。
5、文档相似度计算
使用TF-IDF算法,计算出文本中各词的余弦相似度,作为两篇文档的相似度。算法公式如下:
Figure BDA0002549779830000051
Figure BDA0002549779830000052
获取TF词频,并乘以IDF权重,分别得到S1,S2的TF*IDF。
文本分类,基于TextCNN算法进行,TextCNN是利用卷积神经网络对文本进行分类的算法。
一、判断文件内容中是否出现搜索词的具体步骤如图1所示
读取后智能分词,与词性标注,分词后内容,过滤无意义的文字,清洗后的文本,输入搜索词,是否包含搜索词,输出。
传统的文件包含不能准确的找到需要的含义,有些词,在一些环境下的词性可能不同。“纳税调整”,在一些情况下可能是动词,也有可能是名词或其他词,而一般对于使用者的期望,名词的含义远大于其他词性的含义,对于其他的词性(如:副词,介词,语气词等等)基本上可以忽略。
二、判断文件是否与关键词相关如图2所示
在上述的输入搜索词的基础上,添加一个词向量模型计算,得到相似词语后输入搜索。
判断相似度是一个比较抽象的过程,需要大量的语料进行训练,从而产生词向量模型。基于训练好的模型,可以计算词语之间的语义距离,进而找出某个词语最相似的几个词语。
三、过滤包含关键词但文件内容与关键词无关,或文件中关键词词义不同的文件如图3所示
包括从已收纳文件缓存区中提取一个文件,经过分词、聚类分析后,输入搜索词,判定是否是自定义分类词以及是否是聚类词,然后对处理的文件和输入搜索词比对判断该文件是否属于该类别,如果是则输出,如果不是,从文件缓冲区移除。
若只是通过词分析文本是否符合输入条件还是比较片面,可能会出现过渡收纳的情况,该步骤就是,尽可能剔除过渡收纳的文本。
聚类分析是对文档进行的预处理,训练出词袋向量模型,通过模型计算出文本所属的类别簇。判断搜索词是否存在于该类别簇中。
四、智能打标签,如图4,读取文件,自定义词典分词,词性标注后,对文本进行聚类、实体命名、语义分析后关键词提取,过滤清洗,形成标签,然后保存到文本与标签的映射至设备。
传统的分词打标有一定的误差,智能打标能够通过对文本语义的分析,进行更精准的打标。通过对文本的词性分析,文本的聚类以及上下文成型的概率分析,从而产生更能反映文本意义的标签。前提也是需要进行大数据的清洗和训练。
该设备具有一定的存储功能,因此文本与标签的对应关系,会以map形式序列化到设备中。在进行智能搜索时,先进行反序列化提取,然后进行文本匹配。在实施多次查询时,无需每次查询都进行打标,只需使用原来的序列化模型就可。从而提高重复使用效率。
并且,在每次查询时,该模型具有一定的自学习能力,对于一些新词,或新的概念,在使用的过程中会自我学习和训练,无需每次都进行全量学习。
举例:
被告稽查局于2017年1月13日作出苏园国税稽处〔2017〕3号《税务处理决定书》(以下简称《税务处理决定书》),认定原告中辰公司91笔从无锡亚绍贸易有限公司(以下简称亚绍公司)进货出口业务虚假,共涉及出口额12658228.88美元,增值税专用发票696份,金额65371894.94元,税额11113221.20元,涉及已退税额10746699.37元,未退税额2668341.63元,合计涉及退税额13415041.00元,决定对原告中辰公司追缴骗取的退税款10746699.37元,不予退税366522.83元。
综上所述,在本实施例中,本实施例提供的计算机本地智能搜索方法,通过语义识别过滤了与关键词无关的文章,避免出现文件内的关键词与搜索关键词词义不相符的情况;更准确的找到了文件名不包含关键词但文件与关键词关系紧密的文件,避免了遗漏相关文件或遗忘相关文件文件名的问题;通过最开始的训练,不会造成多次使用后影响之前的搜索结果而出现巨大的混乱;搜索到的文件将自动传入移动设备防止丢失;为已经搜索过的文章打上标签,在之后搜索近义词或相同词时重复搜索全部文件,大大减少了计算机运算量,提高了搜索速度和效率。
以上,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (7)

1.一种税务智能搜索文件的方法,其特征在于包含连接需储存文件机器的数据接口,移动设备和语义识别进行全部文件搜索,具体为:
步骤1:将移动设备接入电脑,输入搜索目标词;
步骤2:优先搜索文件名包含目标词的文件,将其导入移动设备;
步骤3:通过语义识别,识别文件名未包含搜索词的文件,并判断文件中出现的搜索词是否与要求意义相同,若相同,将文件导入移动设备;
步骤4:搜索文件名与文件都不包含关键词的文件,判断文件是否与关键词相关,若相关,将文件导入移动设备。
2.根据权利要求1所述的税务智能搜索文件的方法,其特征在于包括模型建立:
1、对预料进行预处理,包括通过采用BMES标注集,进行CRF分词;
2、训练HMM-NGram分词模型,从而得到,单词词性词典,二元接续词典,词性转移矩阵;
3、基于HMM-NGram分词模型,采用SVMC(支持向量机分类器)训练命名实体识别模型,实现了人名、地名、机构名及税务专有名词的模型训练;
4、基于上面的模型训练得到的词典,训练词向量模型,从而生成word2vec模型。
3.根据权利要求1所述的税务智能搜索文件的方法,其特征在于语义识别中的智能搜索:
1、计算两个词语之间的距离归一化处理,输出0到1之间的数值或者相似度;
2、根据归一化处理后的数值,设定相似度阈值,通过相似度阈值搜索查找出与某个词语最相似的N个词语;
3、短文本的相似度计算;
4、人工智能搜索;
5、文档相似度计算;
使用TF-IDF算法,计算出文本中各词的余弦相似度,作为两篇文档的相似度,算法公式如下:
Figure FDA0002549779820000021
Figure FDA0002549779820000022
获取TF词频,并乘以IDF权重,分别得到S1,S2的TF*IDF;
文本分类,基于TextCNN算法进行,TextCNN是利用卷积神经网络对文本进行分类的算法。
4.根据权利要求1所述的税务智能搜索文件的方法,其特征在于判断文件内容中是否出现搜索词的具体:读取后智能分词,与词性标注,分词后内容,过滤无意义的文字,清洗后的文本,输入搜索词,是否包含搜索词,输出。
5.根据权利要求1所述的税务智能搜索文件的方法,其特征在于判断文件是否与关键词相关:在上述的输入搜索词的基础上,添加一个词向量模型计算,得到相似词语后输入搜索。
6.根据权利要求1所述的税务智能搜索文件的方法,其特征在于过滤包含关键词但文件内容与关键词无关,或文件中关键词词义不同的文件包括从已收纳文件缓存区中提取一个文件,经过分词、聚类分析后,输入搜索词,判定是否是自定义分类词以及是否是聚类词,然后对处理的文件和输入搜索词比对判断该文件是否属于该类别,如果是则输出,如果不是,从文件缓冲区移除。
7.根据权利要求1所述的税务智能搜索文件的方法,其特征在于:智能打标签,读取文件,自定义词典分词,词性标注后,对文本进行聚类、实体命名、语义分析后关键词提取,过滤清洗,形成标签,然后保存到文本与标签的映射至设备;文本与标签的对应关系,会以map形式序列化到设备中。
CN202010572183.XA 2020-06-22 2020-06-22 一种税务智能搜索文件的方法 Pending CN113900995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010572183.XA CN113900995A (zh) 2020-06-22 2020-06-22 一种税务智能搜索文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010572183.XA CN113900995A (zh) 2020-06-22 2020-06-22 一种税务智能搜索文件的方法

Publications (1)

Publication Number Publication Date
CN113900995A true CN113900995A (zh) 2022-01-07

Family

ID=79186347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010572183.XA Pending CN113900995A (zh) 2020-06-22 2020-06-22 一种税务智能搜索文件的方法

Country Status (1)

Country Link
CN (1) CN113900995A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492434A (zh) * 2022-01-27 2022-05-13 圆通速递有限公司 一种基于运单号自动识别模型智能识别运单号方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN109684645A (zh) * 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置
CN110147350A (zh) * 2019-05-22 2019-08-20 深圳市网心科技有限公司 文件查找方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN109684645A (zh) * 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置
CN110147350A (zh) * 2019-05-22 2019-08-20 深圳市网心科技有限公司 文件查找方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网易订阅: "中文自然语言处理工具hanlp隐马角色标注详解", 《HTTPS://WWW.163.COM/DY/ARTICLE/E7TGNGSI05310TOG.HTML》, 13 February 2019 (2019-02-13), pages 1 - 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492434A (zh) * 2022-01-27 2022-05-13 圆通速递有限公司 一种基于运单号自动识别模型智能识别运单号方法
CN114492434B (zh) * 2022-01-27 2022-10-11 圆通速递有限公司 一种基于运单号自动识别模型智能识别运单号方法

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107451126B (zh) 一种近义词筛选方法及系统
CN113076431B (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
Wu et al. Webiq: Learning from the web to match deep-web query interfaces
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN113076411A (zh) 一种基于知识图谱的医疗查询扩展方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
Tkach Text Mining Technology
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN113177121A (zh) 文本主题分类方法、装置、电子设备以及存储介质
CN113553419A (zh) 民航知识图谱问答系统
CN113900995A (zh) 一种税务智能搜索文件的方法
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
CN112182332A (zh) 一种基于爬虫采集的情感分类方法及系统
CN113297844B (zh) 一种基于doc2vec模型与最小编辑距离的重复性数据检测方法
CN114610842A (zh) 一种基于意图识别的关联搜索方法及系统
CN113254623A (zh) 数据处理方法、装置、服务器、介质及产品
Chen et al. FAQ system in specific domain based on concept hierarchy and question type
CN111259145A (zh) 基于情报数据的文本检索分类方法、系统及存储介质
Ramachandran et al. Document Clustering Using Keyword Extraction
Berardi et al. An integrated approach for automatic semantic structure extraction in document images
Gao et al. Detecting data records in semi-structured web sites based on text token clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination