CN111414756A - 一种政策数据的处理方法 - Google Patents

一种政策数据的处理方法 Download PDF

Info

Publication number
CN111414756A
CN111414756A CN202010211078.3A CN202010211078A CN111414756A CN 111414756 A CN111414756 A CN 111414756A CN 202010211078 A CN202010211078 A CN 202010211078A CN 111414756 A CN111414756 A CN 111414756A
Authority
CN
China
Prior art keywords
inquiry message
text
keyword
receiving
policy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010211078.3A
Other languages
English (en)
Inventor
李德朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010211078.3A priority Critical patent/CN111414756A/zh
Publication of CN111414756A publication Critical patent/CN111414756A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种政策数据的处理方法,该方法包括:接收询问消息,其中,所述询问消息用于查询对应的政策;对所述询问消息中的文本进行分词处理,得到多个词语;从所述多个词语中确定至少一个关键词,其中,所述关键词作为检索使用的关键词;将所述关键词在预先配置的多个网站内进行检索,向所述询问消息的来源方反馈检索结果。通过本申请解决了相关技术中企业需要人工查找政策所到的问题,在一定程度提高了政策查找的效率和准确性。

Description

一种政策数据的处理方法
技术领域
本申请涉及数据处理领域,具体而言,涉及一种政策数据的处理方法。
背景技术
政策无论是在国家经济发展过程中还是在企业经营发展的全过程中,亦或是在我们每个人工作、学习、生活中都有着非常重要的作用。
目前,网络上的各种信息数量很大,这就导致了信息爆炸以及政策资源碎片化。这为政策的获取带来不便。尤其是现在查找政策经常是人工来进行查找,例如,一个企业要找到生存发展息息相关的所有政策,要去经信、科技、工商等多部门找政策,也就是要进多门,这导致了企业在查找政策的过程中费时费力。
发明内容
本申请提供一种政策数据的处理方法,以解决相关技术中企业需要人工查找政策所到的问题。
根据本申请的一个方面,提供了一种政策数据的处理方法,包括:接收询问消息,其中,所述询问消息用于查询对应的政策;对所述询问消息中的文本进行分词处理,得到多个词语;从所述多个词语中确定至少一个关键词,其中,所述关键词作为检索使用的关键词;将所述关键词在预先配置的多个网站内进行检索,向所述询问消息的来源方反馈检索结果。
优选地,接收所述询问消息包括:通过预定电子邮箱接收到电子邮件;对所述询问消息中的文本进行分词处理包括:提取所述电子邮件的标题和正文中的文本,并对提取得到的文本进行分词。
优选地,向所述询问消息的来源方反馈检索结果包括:将所述检索结果以电子邮件的方式发送给所述电子邮件的发送方。
优选地,接收所述询问消息包括:通过预定网页上的控件接收用于输入的所述询问消息。
优选地,向所述询问消息的来源方反馈检索结果包括:将所述检索结果显示在所述预定网页上。
根据本申请的另一个方面,还提供了一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
根据本申请的另一个方面,还提供一种处理器,用于执行软件,其中,所述软件用于执行上述的方法。
本申请采用以下步骤:接收询问消息,其中,所述询问消息用于查询对应的政策;对所述询问消息中的文本进行分词处理,得到多个词语;从所述多个词语中确定至少一个关键词,其中,所述关键词作为检索使用的关键词;将所述关键词在预先配置的多个网站内进行检索,向所述询问消息的来源方反馈检索结果。通过本申请解决了相关技术中企业需要人工查找政策所到的问题,在一定程度提高了政策查找的效率和准确性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的政策数据的处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在本实施例中,提供了一种政策数据的处理方法,该方法虽然是用在政策数据查询上的,但是,也可以用在其他信息查询中。在以下实施例中,政策都可以替换为信息。例如,该信息可以是用户对于某个问题的留言,或者也可以是图片。图1是根据本发明实施例的政策数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,接收询问消息,其中,询问消息用于查询对应的政策(或者查询对应的信息);
步骤S104,对询问消息中的文本进行分词处理,得到多个词语;
作为一个可以增加的优选实施方式:分词的方式可以使用机器学习的方式来进行,例如,可以训练一个模型,该模型使用多组训练数据训练得到,每一组训练数据包括一段文本以及人工对该文本进行分词之后得到的词语列表,需要注意的是,该人工分词结果中仅仅包括关键的名词,这些关键的名词是人工提取的能够体现该文本中心思想并且在该文本中出现过的词语。通过使用这些训练数据训练得到的模型其输入就是一段文本,输入的结果就是关键词。
当然也可以采用其他的分词方式:
例如,字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。
步骤S106,从多个词语中确定至少一个关键词,其中,关键词作为检索使用的关键词;
选择关键词的时候,可以从多个关键词中与预先配置的无意义词表相匹配,其中,所述无意义词表预先保存了虚拟、助词、代词等对文本含义理解无帮助的词,无意义词表用来过滤词语,在所述无意义词表中的词不被使用在步骤S108中的检索中。匹配后的所有剩余的词语均可以作为关键词使用。
作为一个可以增加的优选实施方式,多个词语被无意义词表匹配后还剩余N个词语,首先使用N个词语均作为关键词来进行检索,如果检索到的结果小于预定数量,则去掉一个关键词,再使用N-1个关键词来进行检索,如果检索结果仍然小于预定数据,则继续去掉关键词进行检索,直到检索结果的数量大于或等于所述预定数量,并且小于第二预定数量,其中,所述第二预定数量小于所述预定数量,也就是说,检索结果的数量要落入到预先定义的范围内。
优选地,在去关键词的时候,可以每次去掉不同的关键词,统计检索结果的数量是否符合要求,如果有符合要求的,则可以确定关键词了。如果均不符合要求,则需要去掉更多数量的关键词,依次类推,例如,关键词有:税收、增加、年度,去掉年度后,检索结果为10条,去掉增加后,检索结果为20条;去掉税收后,检索结果为100条。预定数量范围为15条到30条,此时,关键词选择为“税收”和“年度”。
作为另一个可选的实施方式,还可以在网页中请用户输入关键词,用户输入的关键词均使用在步骤S108的检索中。
步骤S108,将关键词在预先配置的多个网站内进行检索,向询问消息的来源方反馈检索结果。
作为一个优选实施例,多个网站是被认证认可的网站,例如,官方网站等。这些网站中一般仅仅只有政策。在获取到政策时候,还可以使用该政策的名称作为关键词再次进行检索,不同的是,用政策名称作为关键词进行检索的时候,可以在通用的搜索引擎中进行检索。此次检索得到的结果作为政策解读的参考结果一并反馈给询问消息的来源方。
作为一个优选实施方式,在发送检索结果之后,还可以接受该用户对于该检索结果的反馈,如果反馈的评分超过阈值,则将该用户输入的文本以及对应的关键词以及检索结果进行保存。如果下次其他用户输入的文本与该用户输入的文本相似度超过阈值,或者,其他用户输入的文本的关键词与该用户的关键词相似,则直接将检索结果反馈给其他用户。
优选地还可以加上一个时间节点,保存的文本、关键词以及对应的结果生成一个有效期,在该有效期内,如果其他用户输入的文本与该用户输入的文本相似度超过阈值,或者,其他用户输入的文本的关键词与该用户的关键词相似,则直接将检索结果反馈给其他用户。有效期过期之后,如果其他用户输入的文本与该用户输入的文本相似度超过阈值,则直接将该用户的关键词作为其他用户的关键词重新进行检索,并将检索的结果反馈给其他用户。
通过上述步骤解决了相关技术中企业需要人工查找政策所到的问题,在一定程度提高了政策查找的效率和准确性。
接收询问消息的方式有很多种,上述步骤可以运行在一个网站上,该网站上运行一段脚本,该脚本可以定时扫描预定电子邮箱,在该电子邮箱接收到邮件之后,对电子邮件中的文本进行上述步骤处理。该网站公布该电子邮箱,并提示可以向该电子邮箱发送电子邮件来获取相关政策内容。
该优选实施方式中,接收询问消息包括:通过预定电子邮箱接收到电子邮件;对询问消息中的文本进行分词处理包括:提取电子邮件的标题和正文中的文本,并对提取得到的文本进行分词。
优选地,向询问消息的来源方反馈检索结果包括:将检索结果以电子邮件的方式发送给电子邮件的发送方。
在另一个优选方式中,在网站上还可以直接提供一个网页,该网页上设置输入控件,通过该控件接收用户输入的询问消息。
在该实施例中,接收询问消息包括:通过预定网页上的控件接收用于输入的询问消息。
优选地,向询问消息的来源方反馈检索结果包括:将检索结果显示在预定网页上。
在本实施例中还提供了一种装置,该装置中的模块对应于上述的方法步骤,在上述实施例中已经进行过说明的,在此不再赘述。
在本实施例中还提供了一种装置,该装置包括:接收模块,用于接收询问消息,其中,询问消息用于查询对应的政策;分词模块,用于对询问消息中的文本进行分词处理,得到多个词语;确定模块,用于从多个词语中确定至少一个关键词,其中,关键词作为检索使用的关键词;反馈模块,用于将关键词在预先配置的多个网站内进行检索,向询问消息的来源方反馈检索结果。
在本实施例中,提供了一种存储器,用于存储软件,其中,该软件用于执行上述的方法。
在本实施例中,提供了一种处理器,用于执行软件,其中,该软件用于执行上述的方法。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例提供了一种存储介质,其上存储有程序或者软件,该程序被处理器执行时实现上述方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种政策数据的处理方法,其特征在于,包括:
接收询问消息,其中,所述询问消息用于查询对应的政策;
对所述询问消息中的文本进行分词处理,得到多个词语;
从所述多个词语中确定至少一个关键词,其中,所述关键词作为检索使用的关键词;
将所述关键词在预先配置的多个网站内进行检索,向所述询问消息的来源方反馈检索结果。
2.根据权利要求1所述的方法,其特征在于,
接收所述询问消息包括:通过预定电子邮箱接收到电子邮件;
对所述询问消息中的文本进行分词处理包括:提取所述电子邮件的标题和正文中的文本,并对提取得到的文本进行分词。
3.根据权利要求2所述的方法,其特征在于,向所述询问消息的来源方反馈检索结果包括:
将所述检索结果以电子邮件的方式发送给所述电子邮件的发送方。
4.根据权利要求1所述的方法,其特征在于,
接收所述询问消息包括:通过预定网页上的控件接收用于输入的所述询问消息。
5.根据权利要求4所述的方法,其特征在于,向所述询问消息的来源方反馈检索结果包括:
将所述检索结果显示在所述预定网页上。
6.一种存储器,其特征在于,用于存储软件,其中,所述软件用于执行权利要求1至4中任一项所述的方法。
7.一种处理器,其特征在于,用于执行软件,其中,所述软件用于执行权利要求1至4中任一项所述的方法。
CN202010211078.3A 2020-03-24 2020-03-24 一种政策数据的处理方法 Pending CN111414756A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010211078.3A CN111414756A (zh) 2020-03-24 2020-03-24 一种政策数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010211078.3A CN111414756A (zh) 2020-03-24 2020-03-24 一种政策数据的处理方法

Publications (1)

Publication Number Publication Date
CN111414756A true CN111414756A (zh) 2020-07-14

Family

ID=71493256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010211078.3A Pending CN111414756A (zh) 2020-03-24 2020-03-24 一种政策数据的处理方法

Country Status (1)

Country Link
CN (1) CN111414756A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707142B1 (en) * 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
CN103425742A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种网站的搜索方法和装置
CN108038229A (zh) * 2017-12-25 2018-05-15 河北省科学院应用数学研究所 政务信息检索方法、系统及终端设备
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707142B1 (en) * 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
CN103425742A (zh) * 2013-07-16 2013-12-04 北京中科汇联信息技术有限公司 一种网站的搜索方法和装置
CN108038229A (zh) * 2017-12-25 2018-05-15 河北省科学院应用数学研究所 政务信息检索方法、系统及终端设备
CN110532451A (zh) * 2019-06-26 2019-12-03 平安科技(深圳)有限公司 针对政策文本的检索方法和装置、存储介质、电子装置
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈林;杨丹;赵俊芹;: "基于语义理解的智能搜索引擎研究", no. 06 *

Similar Documents

Publication Publication Date Title
CN106033416B (zh) 一种字符串处理方法及装置
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
US8577155B2 (en) System and method for duplicate text recognition
US10417269B2 (en) Systems and methods for verbatim-text mining
CN110162750B (zh) 文本相似度检测方法、电子设备及计算机可读存储介质
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
US8965877B2 (en) Apparatus and method for automatic assignment of industry classification codes
CN107368489B (zh) 一种资讯数据处理方法及装置
US11775549B2 (en) Method and system for document indexing and retrieval
CN106202349B (zh) 网页分类字典生成方法及装置
CN113468339A (zh) 基于知识图谱的标签提取方法、系统、电子设备及介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN111414756A (zh) 一种政策数据的处理方法
US8055670B2 (en) System and method for the generation of replacement titles for content items
CN115840803A (zh) 文献检索方法、系统、计算机设备及存储介质
CN111428037B (zh) 一种分析行为政策匹配性的方法
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置
CN110188301B (zh) 用于网站的信息聚合方法及装置
CN110968691B (zh) 司法热点确定方法及装置
US10552459B2 (en) Classifying a document using patterns
CN112925873A (zh) 面向文本搜索需求的形式化表达方法、装置及存储介质
CN111143460A (zh) 基于大数据的经济领域的数据的检索方法、装置与处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714

RJ01 Rejection of invention patent application after publication