CN113326310B - 基于nlp的调研数据标准化方法及系统 - Google Patents

基于nlp的调研数据标准化方法及系统 Download PDF

Info

Publication number
CN113326310B
CN113326310B CN202110680101.8A CN202110680101A CN113326310B CN 113326310 B CN113326310 B CN 113326310B CN 202110680101 A CN202110680101 A CN 202110680101A CN 113326310 B CN113326310 B CN 113326310B
Authority
CN
China
Prior art keywords
standard
description
information
descriptions
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110680101.8A
Other languages
English (en)
Other versions
CN113326310A (zh
Inventor
周羽
张吴
黄海波
邓莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lixin Chongqing Data Technology Co ltd
Original Assignee
Lixin Chongqing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lixin Chongqing Data Technology Co ltd filed Critical Lixin Chongqing Data Technology Co ltd
Priority to CN202110680101.8A priority Critical patent/CN113326310B/zh
Publication of CN113326310A publication Critical patent/CN113326310A/zh
Application granted granted Critical
Publication of CN113326310B publication Critical patent/CN113326310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理领域,具体涉及基于NLP的调研数据标准化方法及系统,该方法包括:标准库制作步骤,创建标准库,制定各研究领域的标准描述并存储在标准库中,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;数据录入步骤,录入项目的调研数据及描述信息,描述信息包括领域描述、指标描述及指标选项描述;信息识别步骤,对录入的描述信息分别进行分词后再进行向量化得到词向量,再利用LSTM对词向量与标准库进行识别,根据计算出的相似度中选择预设数量的相似度最高的标准描述;关联确认步骤,从识别出的标准描述中选择出最准确的一个,并将其与对应的描述信息进行关联。本申请能够在保证处理效率的同时保证处理的准确率。

Description

基于NLP的调研数据标准化方法及系统
技术领域
本发明属于数据处理领域,具体涉及基于NLP的调研数据标准化方法及系统。
背景技术
市场调研是运用科学的方法,有目的、系统地采集、记录、整理有关市场营销的信息和资料,分析市场情况,了解市场的现状及其发展趋势,为市场预测和营销决策提供客观、正确的资料的过程。随着时代的不断发展变化,市场调研范围不再局限于市场营销公司,扩大到了政府部门、企事业单位等。
不过,想要市场调研发挥作用,调研数据的体量必须要过关,若调研数据的体量太小,存在调研不够全面的问题。因此,在大数据领域高速发展的今天,出现了调研数据购买的平台。当需要对某研究领域进行分析时,企业可通过在平台上购买需要的调研数据,以保证数据量足以支撑其完成高质量的调研分析。但是,由于用语习惯不同,不同公司对相同类型的调研项目(如客户满意度)及其指标的描述、以及指标选项的描述及顺序会存在差异,想要企业、消费者能够同时使用这些公司的调研数据,需要在存储前对调研数据进行标准化处理。
目前,标准化处理主要有人工处理和机器处理两种。人工处理由工作人员识别判断,工作人员需要先记住所有标准化的研究领域及指标、指标选项的标准描述,再对单个项目调研数据及指标的描述与标准描述进行分析后,挑选出最合适的标准描述进行关联,不仅对工作人员的要求非常高并且工作量巨大,很容易出错。机器处理的方式是由系统通过语义识别进行自动关联,虽然效率有保证,但在某个项目或指标拥有多个语义相近的标准描述时容易出现错误。
发明内容
本发明意在于提供一种基于NLP的调研数据标准化方法及系统,能够在保证处理效率的同时保证处理的准确率。
本发明提供的基础方案为:
基于NLP的调研数据标准化方法,包括:
标准库制作步骤,创建标准库,制定各研究领域的标准描述并存储在标准库中,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;
数据录入步骤,录入项目的调研数据及描述信息,描述信息包括领域描述、指标描述及指标选项描述;
信息识别步骤,对录入的描述信息分别进行分词后再进行向量化得到词向量,再利用LSTM对词向量与标准库进行识别,根据计算出的相似度中选择预设数量的相似度最高的标准描述;
关联确认步骤,从识别出的标准描述中选择出最准确的一个,并将其与对应的描述信息进行关联。
基础方案工作原理及有益效果:
为便于存储数据的统一性,本方案在准备阶段,会定义各研究领域的描述信息,即研究领域标准描述、指标标准描述及指标选项标准描述,并存储在标准库中。
为便于说明,后续操作以领域描述的关联过程为例。将调研数据进行录入后,先用NLP技术对领域描述进行分词再进行向量化得到词向量,然后利用LSTM对词向量进行识别,根据计算出的相似度中选择预设数量的相似度最高的研究领域标准描述;再由工作人员从计算出的研究领域标准描述中选择出最准确的一个,并将其与对应的调研项目的领域描述进行关联。与现有技术中直接人工操作相比,不要求工作人员记住所有的研究领域标准描述,对工作人员的要求更低、更不易出错且效率更高;与现有的机器识别直接关联相比,可避免某个领域描述拥有多个语义相近的研究领域标准描述时容易错的情况。指标描述及指标选项描述的关联过程同上。需要说明的是,信息识别步骤中,识别出的相似度最高的研究领域标准描述的数量、指标标准描述的数量及指标选项标准描述的数量可以相同,也可以不同,本领域技术人员可依据具体需求具体设置。
综上,本申请能够在保证处理效率的同时保证处理的准确率。
进一步,关联确认步骤中,从识别出的标准描述中选择出最准确的一个时,若无符合条件的标准描述,则转到核对步骤;
核对步骤,核对识别出的标准描述是否均不能准确的描述对应的描述信息,若否,则将能够准确描述的标准描述与对应的描述信息进行关联,若是,则生成缺失信息,缺失信息包括不能进行关联的描述信息。
在关联确认步骤中,有可能存在识别出的标准描述均不能准确描述对应的描述信息的情况。但是,由于是工作人员进行关联,其个人的判断有时可能会出错。因此,为了确认是否真的不存在能够关联的标准描述,由其他的工作人员在核对步骤中进行核对,在核对结果为确实不存在能够关联的标准描述时,再生成缺失信息。通过这样的方式,可以减少一些不必要的对标准信息的更新、整改工作。
进一步,还包括标准库整改步骤,根据缺失信息,定义出对应的新的标准描述并添加到标准库中。
可避免后续出现相同的不存在能够关联的标准描述的问题。
进一步,还包括统计步骤,对缺失信息进行统计并分析,若某研究领域的缺失率达到预设值,则生成该研究领域的重新梳理信息,并转到标准库整改步骤;标准库整改步骤中,还根据重新梳理信息将对应研究领域的标准描述进行重新梳理,并用重新梳理的标准描述替换之前存储的标准描述。
如果某个研究领域的标准描述的缺失率达到预设值,则说明该研究领域的标准描述存在问题,很容易出现识别出的标准描述不能用于关联的情况,生成重新梳理信息之后,工作人员可对该研究领域的标准描述进行重新梳理。通过这样的方式,解决该研究领域缺失率高的问题。
进一步,标准库制作步骤中,对标准描述增加描述说明后再存储在标准库中;核对步骤中,若识别出的标准描述均不能准确的描述需要关联的描述信息,则根据未关联成功的描述信息的描述说明判断未关联原因,若未关联原因为标准描述措辞不当,则生成修改信息;若未关联原因为缺少对应的标准描述,则生成缺失信息。
定义标准描述时,有时候会存在描述不准确的情况,后续工作人员在进行关联确认时,会认为该标准描述不符合关联的要求。这种情况与标准描述缺失的情况存在区别,如果直接按照标准描述缺失进行增加标准描述的操作,该描述不准确的标准描述仍然存在于标准库中,不仅占用存储空间,还有可能会对之后的关联造成干扰。
因此,本方案的核对步骤中,会根据未关联成功的描述信息的描述说明判断未关联原因,并根据未关联原因进行相应的后续操作。具体的,如果结合描述说明后判断结果仍然为缺少对应的标准描述,则需要添加对应的标准描述,因此生成缺失标准描述信息;如果只是标准描述的措辞问题,将该标准描述的措辞修改即可,因此生成修改信息。这样,不仅可以对标准库的存储内容进行优化,还可以防止描述不准确的标准描述继续存在于标准库中,对后续的关联造成干扰。
进一步,标准库制作步骤中,对标准描述增加描述说明时,通过隐藏属性的方式进行添加。
这样的操作,可以减少执行关联确认步骤的工作人员的干扰信息,该工作人员只需要根据识别出的多个标准描述判断是否存在可以关联的标准描述即可,减少其工作负荷,提升其工作效率。之后,在核对步骤时,再由其他工作人员根据描述说明来判断是属于措辞不当还是缺少对应的标准描述,工作人员之间的分工明确,协作效果好。
进一步,关联确认步骤中,从识别出的标准描述中选择出最准确的一个时,若存在不止一个最准确的标准描述,则生成雷同信息并转到核对步骤,雷同信息包括雷同的标准描述及对应的描述信息;核对步骤中,还根据雷同信息中雷同的标准描述的描述说明,判断雷同原因是否为措辞不当,若是则生成修改信息,若否则生成删除信息。
在进行关联确认时,有时候会存在识别出的标准描述中有两个甚至多个意思雷同、相似度很高的情况,此时,进行关联的工作人员无法判断选择其中的哪个标准描述进行关联。此时,该工作人员可创建雷同信息,再由核对步骤的工作人员根据雷同信息中雷同的标准描述的描述说明,判断雷同原因是否为措辞不当,如果是,则需要对措辞不当的标准描述进行修改,因此生成修改信息,通过后续修改,可以对标准库的存储内容进行优化。如果不是措辞不当,则说明在梳理标准信息时,将相同意思的标准信息进行了重复梳理,需要将多余的标准信息进行删除,以防止对别的关联操作继续造成干扰,因此生成删除信息。
本发明的基础方案之二:一种基于NLP的调研数据标准化系统,应用于上述基于NLP的调研数据标准化方法,包括标准库、录入单元、识别单元和确认单元;
标准库内存储有各研究领域的标准描述,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;录入单元用于录入调研数据及其描述信息,描述信息包括领域描述、指标描述及指标选项描述;识别单元用于对录入的描述信息进行分词再进行向量化得到词向量,再利用LSTM对词向量进行识别,并根据计算出的相似度中选择预设数量的相似度最高的标准描述;确认单元用于输入确认关联的标准描述,并将其与对应的描述信息进行关联。
与现有技术中直接人工操作相比,不要求工作人员记住所有研究领域的标准描述,对工作人员的依赖性更低,能够有效避免因为人为因素出现的错误情况,同时使效率更高;与现有的机器识别直接关联相比,可避免某个描述信息拥有多个语义相近的标准描述时容易错的情况。
进一步,标准库内还存储有各标准描述的描述说明;还包括核对单元;确认单元还用于向核对单元发送未关联信号,未关联信号包括描述信息及对应的未关联成功的标准描述;核对单元用于接收到未关联信号后,显示对应的描述信息、未关联成功的标准描述及标准描述的描述说明;核对单元还用于接收到未关联信号后输入修改信息或缺失信息。
当出现识别出的标准描述均不符合关联标准时,可根据具体情况输入修改信息或缺失信息。
进一步,确认单元还用于向核对单元发送雷同信号,雷同信号包括雷同的标准描述;核对单元还用于接收到雷同信号后,显示雷同的标准描述及对应的描述说明,还用于接收到雷同信号后输入修改信息或删除信息。
当出现识别出的标准描述存在雷同时,可根据具体情况输入修改信息或删除信息。
附图说明
图1为本发明实施例一的流程图;
图2为本发明实施例一的逻辑框图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例一
如图1所示,一种基于NLP的调研数据标准化方法,需要说明的是,该方法的实现依赖于一种基于NLP的调研数据标准化系统,如图2所示,该系统包括标准库、录入单元、识别单元和确认单元。其中,录入单元和确认单元集成在工作端,识别单元及标准库集成在服务器,本实施例中,工作端为装载对应程序的PC,服务器为云服务器。
标准库内存储有各研究领域的标准描述,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;录入单元用于录入调研数据及其描述信息,描述信息包括领域描述、指标描述及指标选项描述;识别单元用于对录入的描述信息进行分词再进行向量化得到词向量,再利用LSTM对词向量进行识别,并根据计算出的相似度中选择预设数量的相似度最高的标准描述;确认单元用于输入确认关联的标准描述,并将其与对应的描述信息进行关联。LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间循环神经网络,它改善了RNN中存在的长期依赖问题;LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好;并且作为非线性模型,LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。
其中,识别出的相似度最高的研究领域标准描述的数量、指标标准描述的数量及指标选项标准描述的数量可以相同,也可以不同,技术人员可依据具体需求具体设置。本实施例中均为3个。
本实施例中的基于NLP的调研数据标准化方法,包括:
标准库制作步骤,创建标准库,制定各研究领域的标准描述并存储在标准库中,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述。具体的,在制定各领域的标准描述时,可将同一行业、同一调研方向、同一调查方法的市场调研归结为一个研究领域(即研究领域标准描述),再根据行业、调研标准等特性,制定该研究领域下的标准化指标(即指标标准描述)和指标选项(即指标选项标准描述)。
数据录入步骤,录入项目的调研数据及描述信息,描述信息包括领域描述、指标描述及指标选项描述。调研指标及指标选项,通常为市场调研中,针对委托方具体要求设计的问题及可选择的答案,调研数据是有目的、系统地采集、搜集整理后的数据。
信息识别步骤,对录入的描述信息分别进行分词后再进行向量化得到词向量,再利用LSTM对词向量与标准库进行识别,根据计算出的相似度中选择预设数量的相似度最高的标准描述。
关联确认步骤,从识别出的标准描述中选择出最准确的一个,并将其与对应的描述信息进行关联。
为便于说明,以指标描述的关联过程为例。例如体育经济领域中现场观看比赛这一调研项目的调研,调查项目中的指标会包括个人信息、个人意愿、体育类型偏好、费用规划、距离接受度等等方面。其中,个人意愿这一指标,在调研数据中的指标描述可能是“在有时间的情况下,是否愿意到现场观看体育比赛?”。工作人员将这一指标描述通过录入单元进行录入后,识别单元会对其进行语义识别分析,并从标准库中识别出3个相似度最高的指标标准描述,如“个人意愿”、“个人意向”、“个人偏好”。之后,工作人员就可以在这识别出的3指标标准描述中,选择相似度最高的一个,也就是“个人意愿”,并与调研数据中的问题进行关联。领域描述及指标选项描述的关联过程同上,在此不再赘述。
与现有技术中直接人工操作相比,不要求工作人员记住所有的研究领域的标准描述,对工作人员的依赖性更低,能够有效避免因为人为因素出现的错误情况,同时使效率更高;与现有的机器识别直接关联相比,可避免某个描述信息拥有多个语义相近的标准描述时容易错的情况。
实施例二
与实施例一不同的是,本实施例的基于NLP的调研数据标准化系统还包括核对单元和统计单元。其中,核对单元集成在第二工作端,第二工作端为装载对应程序的PC,统计单元集成在服务器。
标准库内还存储有各标准描述的描述说明;确认单元还用于向核对单元发送未关联信号,未关联信号包括描述信息及对应的未关联成功的标准描述;核对单元用于接收到未关联信号后,显示对应的描述信息、未关联成功的标准描述及标准描述的描述说明;核对单元还用于接收到未关联信号后输入修改信息或缺失信息。
确认单元还用于向核对单元发送雷同信号,雷同信号包括雷同的标准描述;核对单元还用于接收到雷同信号后,显示雷同的标准描述及对应的描述说明,还用于接收到雷同信号后输入修改信息或删除信息。
统计单元用于对缺失信息进行统计及分析,若某研究领域的缺失率达到预设值,则生成该研究领域的重新梳理信息。
本实施例中,基于NLP的调研数据标准化方法还包括核对步骤、标准库整改步骤和核对步骤;
本实施例的标准库制作步骤中,对标准描述增加描述说明后再存储在标准库中;其中,对标准描述增加描述说明时,通过隐藏属性的方式进行添加。隐藏属性,即,正常情况下处于隐藏状态,可避免对执行关联确认步骤的工作人员的正常工作造成干扰,核对步骤的工作人员需要查看描述说明时将其调取出来即可。
关联确认步骤中,从识别出的标准描述中选择出最准确的一个时,若无符合条件的标准描述,则转到核对步骤;若存在不止一个最准确的标准描述,则生成雷同信息并转到核对步骤,雷同信息包括雷同的标准描述及对应的描述信息。
核对步骤,核对识别出的标准描述是否均不能准确的描述对应的描述信息,若否,则将能够准确描述的标准描述与对应的描述信息进行关联,若是,则生成缺失信息,缺失信息包括不能进行关联的描述信息;
若识别出的标准描述均不能准确的描述需要关联的描述信息,则根据未关联成功的描述信息的描述说明判断未关联原因,若未关联原因为标准描述措辞不当,则生成修改信息;若未关联原因为缺少对应的标准描述,则生成缺失信息;
若存在雷同信息,则根据雷同信息中雷同的标准描述的描述说明,判断雷同原因是否为措辞不当,若是则生成修改信息,若否则生成删除信息。
标准库整改步骤,根据缺失信息,定义出对应的新的标准描述并添加到标准库中。
统计步骤,对缺失信息进行统计并分析,若某研究领域的缺失率达到预设值,则生成该研究领域的重新梳理信息,并转到标准库整改步骤;标准库整改步骤中,还根据重新梳理信息将对应研究领域的标准描述进行重新梳理,并用重新梳理的标准描述替换之前存储的标准描述。
为便于说明,本实施例中,同样以体育经济领域中现场观看比赛这一调研项目中的“在有时间的情况下,是否愿意到现场观看体育比赛?”这一指标描述为例。
由于定义标准描述时,有时候会存在描述不准确的情况,后续工作人员在进行关联确认时,会认为该标准描述不符合关联的标准。例如,上述实际指标描述的指标标准描述是“个人意愿”,但定义的时候将其定义为了“个人希望”,在后续操作时,从标准库中识别出的3个相似度最高的指标标准描述就是“个人希望”、“个人意向”和“个人偏好”,这3个明显都不符合关联的要求。此时,负责关联确认的工作人员就可以将其视为无可以关联的匹配项,由其他工作人员来进行核对。
其他工作人员在核对时,先通过识别出的指标标准描述核对是否真的都不符合要求,如果是上述匹配情况,单从指标标准描述上看均不符合要求,则可以通过个人权限,查看“个人希望”、“个人意向”和“个人偏好”这3个指标标准描述的描述说明,例如“个人意向”和“个人偏好”都是其原本意思的描述说明,“个人希望”的描述说明却是“个人对事物所产生的看法或想法,并因此而产生的个人主观性思维和接受度”,这种情况很明显就是属于定义存在问题的情况,错误的将“个人意愿”定义为了“个人希望”,这种情况与标准描述缺失的情况存在区别,如果直接按照标准描述缺失进行增加标准描述的操作,“个人描述”这个描述不准确的标准描述仍然存在于标准库中,不仅占用存储空间,还有可能会对之后的关联造成干扰。因此,负责核对的工作人员就可以生成修改信息。
后续可以将标准库中“个人希望”这一指标标准描述修改为“个人意愿”。如果“个人希望”、“个人意向”和“个人偏好”的描述说明都是其本身的意思,均与“个人意愿”不同,则说明是出现了“个人意愿”这一指标标准描述缺失的情况,此时,核对的工作人员可生成缺失信息,后续对“个人意向”进行补充添加。
通过这样的方式,本方案可以在未关联成功时,根据未关联成功的具体原因进行对应的后续操作,具体的,如果结合描述说明后判断结果仍然为缺少对应的标准描述,则需要添加对应的标准描述,因此生成缺失标准描述信息;如果只是标准描述的措辞问题,将该标准描述的措辞修改即可,因此生成修改信息。这样,不仅可以对标准库的存储内容进行优化,还可以防止描述不准确的标准描述继续存在于标准库中,对后续的关联造成干扰。
另一方面,在进行关联确认时,有时候会存在识别出的标准描述中有两个甚至多个意思雷同、相似度很高的情况,此时,进行关联的工作人员无法判断选择其中的哪个标准描述进行关联。例如,负责关联确认的工作人员如果发现3个指标标准描述中存在雷同,如“个人意愿”、“看法意愿”和“个人偏好”,此时,就可以生成雷同信息,由负责核对的工作人员进行处理。
核对工作人员可以通过个人权限,查看“个人意愿”、“看法意愿”和“个人偏好”这3个指标标准描述的描述说明,如果描述说明的意思一样,则说明的却出现了指标标准描述出现了雷同的情况,需要进行删除操作,因此,生成删除信息,后续可将雷同的3个指标标准描述中多余的2个删除。如果“个人意愿”的描述说明不是其本身的意思,而是“个人愿望”的意思,则说明是措辞不当的原因,因此,负责审核的工作人员可生成修改信息,后续可将“个人意愿”这一指标标准描述修改为“个人愿望”。通过这样的方式,能够对语义雷同的标准描述进行语义雷同的原因分析,了解其是因为措辞不当还是因为重复梳理,便于后续采取对应的处理措施,用准确的处理方式对语义雷同的标准描述进行处理,从而实现对标准库的有效优化。
在系统运行的过程中,统计单元会对缺失信息进行统计并分析,若某研究领域,如体育经济领域的缺失率达到预设值,如8%,则说明该研究领域的标准描述存在问题,很容易出现识别出的标准描述不能用于关联的情况,因此,生成重新梳理信息。之后,工作人员可对该研究领域的标准描述进行重新梳理,并用重新梳理的标准描述替换之前存储的标准描述。通过这样的方式,解决该研究领域缺失率高的问题。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该研究领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (8)

1.基于NLP的调研数据标准化方法,其特征在于,包括:
标准库制作步骤,创建标准库,制定各研究领域的标准描述并存储在标准库中,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;
数据录入步骤,录入项目的调研数据及描述信息,描述信息包括领域描述、指标描述及指标选项描述;
信息识别步骤,对录入的描述信息分别进行分词后再进行向量化得到词向量,再利用LSTM对词向量与标准库进行识别,根据计算出的相似度中选择预设数量的相似度最高的标准描述;
关联确认步骤,从识别出的标准描述中选择出最准确的一个,并将其与对应的描述信息进行关联;
关联确认步骤中,从识别出的标准描述中选择出最准确的一个时,若无符合条件的标准描述,则转到核对步骤;
核对步骤,核对识别出的标准描述是否均不能准确的描述对应的描述信息,若否,则将能够准确描述的标准描述与对应的描述信息进行关联,若是,则生成缺失信息,缺失信息包括不能进行关联的描述信息;
还包括标准库整改步骤,根据缺失信息,定义出对应的新的标准描述并添加到标准库中。
2.根据权利要求1所述的基于NLP的调研数据标准化方法,其特征在于:还包括统计步骤,对缺失信息进行统计并分析,若某研究领域的缺失率达到预设值,则生成该研究领域的重新梳理信息,并转到标准库整改步骤;标准库整改步骤中,还根据重新梳理信息将对应研究领域的标准描述进行重新梳理,并用重新梳理的标准描述替换之前存储的标准描述。
3.根据权利要求1所述的基于NLP的调研数据标准化方法,其特征在于:标准库制作步骤中,对标准描述增加描述说明后再存储在标准库中;核对步骤中,若识别出的标准描述均不能准确的描述需要关联的描述信息,则根据未关联成功的描述信息的描述说明判断未关联原因,若未关联原因为标准描述措辞不当,则生成修改信息;若未关联原因为缺少对应的标准描述,则生成缺失信息。
4.根据权利要求3所述的基于NLP的调研数据标准化方法,其特征在于:标准库制作步骤中,对标准描述增加描述说明时,通过隐藏属性的方式进行添加。
5.根据权利要求3所述的基于NLP的调研数据标准化方法,其特征在于:关联确认步骤中,从识别出的标准描述中选择出最准确的一个时,若存在不止一个最准确的标准描述,则生成雷同信息并转到核对步骤,雷同信息包括雷同的标准描述及对应的描述信息;核对步骤中,还根据雷同信息中雷同的标准描述的描述说明,判断雷同原因是否为措辞不当,若是则生成修改信息,若否则生成删除信息。
6.基于NLP的调研数据标准化系统,其特征在于:应用于权利要求1—5任一项所述的基于NLP的调研数据标准化方法,包括标准库、录入单元、识别单元和确认单元;
标准库内存储有各研究领域的标准描述,标准描述包括研究领域标准描述、指标标准描述及指标选项标准描述;录入单元用于录入调研数据及其描述信息,描述信息包括领域描述、指标描述及指标选项描述;识别单元用于对录入的描述信息进行分词再进行向量化得到词向量,再利用LSTM对词向量进行识别,并根据计算出的相似度中选择预设数量的相似度最高的标准描述;确认单元用于输入确认关联的标准描述,并将其与对应的描述信息进行关联。
7.根据权利要求6所述的基于NLP的调研数据标准化系统,其特征在于:标准库内还存储有各标准描述的描述说明;还包括核对单元;确认单元还用于向核对单元发送未关联信号,未关联信号包括描述信息及对应的未关联成功的标准描述;核对单元用于接收到未关联信号后,显示对应的描述信息、未关联成功的标准描述及标准描述的描述说明;核对单元还用于接收到未关联信号后输入修改信息或缺失信息。
8.根据权利要求7所述的基于NLP的调研数据标准化系统,其特征在于:确认单元还用于向核对单元发送雷同信号,雷同信号包括雷同的标准描述;核对单元还用于接收到雷同信号后,显示雷同的标准描述及对应的描述说明,还用于接收到雷同信号后输入修改信息或删除信息。
CN202110680101.8A 2021-06-18 2021-06-18 基于nlp的调研数据标准化方法及系统 Active CN113326310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110680101.8A CN113326310B (zh) 2021-06-18 2021-06-18 基于nlp的调研数据标准化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110680101.8A CN113326310B (zh) 2021-06-18 2021-06-18 基于nlp的调研数据标准化方法及系统

Publications (2)

Publication Number Publication Date
CN113326310A CN113326310A (zh) 2021-08-31
CN113326310B true CN113326310B (zh) 2023-04-18

Family

ID=77423993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110680101.8A Active CN113326310B (zh) 2021-06-18 2021-06-18 基于nlp的调研数据标准化方法及系统

Country Status (1)

Country Link
CN (1) CN113326310B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934596A (zh) * 2017-03-01 2017-07-07 广东中建普联科技股份有限公司 基于相似度对比的建设工程项目数据管理方法及系统
CN108492028A (zh) * 2018-03-21 2018-09-04 徐欣 数据需求标准化方法及标准化系统
CN110569061A (zh) * 2019-09-24 2019-12-13 河北环境工程学院 一种基于大数据的软件工程知识库的自动化构建系统
CN112257422A (zh) * 2020-10-22 2021-01-22 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140330578A1 (en) * 2012-03-13 2014-11-06 Theodore Pincus Electronic medical history (emh) data management system for standard medical care, clinical medical research, and analysis of long-term outcomes
CN104794202B (zh) * 2015-04-23 2018-06-15 浙江大学 一种面向创意设计的文物知识库系统构建的方法
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
CN109949938B (zh) * 2017-12-20 2024-04-26 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN108446260A (zh) * 2018-02-06 2018-08-24 天津艾登科技有限公司 基于语义近似匹配算法进行自动化疾病编码转换的方法及系统
CN111198878B (zh) * 2018-11-19 2023-11-10 北京宸瑞科技股份有限公司 一种基础信息调研系统及方法
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置
CN112883157B (zh) * 2021-02-07 2023-04-07 武汉大学 一种多源异构医疗数据的标准化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934596A (zh) * 2017-03-01 2017-07-07 广东中建普联科技股份有限公司 基于相似度对比的建设工程项目数据管理方法及系统
CN108492028A (zh) * 2018-03-21 2018-09-04 徐欣 数据需求标准化方法及标准化系统
CN110569061A (zh) * 2019-09-24 2019-12-13 河北环境工程学院 一种基于大数据的软件工程知识库的自动化构建系统
CN112257422A (zh) * 2020-10-22 2021-01-22 京东方科技集团股份有限公司 命名实体归一化处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113326310A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN110852856A (zh) 一种基于动态网络表征的发票虚开识别方法
Pawar et al. A survey on outlier detection techniques for credit card fraud detection
CN108268886B (zh) 用于识别外挂操作的方法及系统
US20050021357A1 (en) System and method for the efficient creation of training data for automatic classification
CN109918645B (zh) 深度分析文本的方法、装置、计算机设备和存储介质
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN112836750A (zh) 一种系统资源分配方法、装置及设备
CN114723543B (zh) 一种跨境电商的财务档案大数据管理系统及方法
CN113688311A (zh) 基于数据交互的信息推荐方法、装置、设备及存储介质
CN113326310B (zh) 基于nlp的调研数据标准化方法及系统
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置
CN116501979A (zh) 信息推荐方法、装置、计算机设备及计算机可读存储介质
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN113704601A (zh) 信息交互方法、装置、设备及存储介质
CN113704600A (zh) 基于数据交互的信息处理方法、装置、设备及存储介质
Azzalini et al. Data Quality and Data Ethics: Towards a Trade-off Evaluation.
CN116303375B (zh) 基于大数据的数据库维护分析方法、服务器及介质
CN111858291B (zh) 计费系统迁移测试中数据异常的根因确定方法、设备及系统
CN113742472B (zh) 一种基于客服营销场景下的数据挖掘方法及装置
CN117688485B (zh) 一种基于深度学习的火灾诱因分析方法及系统
Oladipo et al. Customer Churn Prediction in Telecommunications Using Ensemble Technique
CN117112791B (zh) 一种未知日志分类决策系统、方法、装置及可读存储介质
CN117194664A (zh) 意见分类模型训练方法、意见分类方法、装置及介质
Feng A cost-sensitive decision tree under the condition of multiple classes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant