CN109947835B - 基于有限状态自动机的印染报价结构化需求数据提取方法 - Google Patents

基于有限状态自动机的印染报价结构化需求数据提取方法 Download PDF

Info

Publication number
CN109947835B
CN109947835B CN201910183241.7A CN201910183241A CN109947835B CN 109947835 B CN109947835 B CN 109947835B CN 201910183241 A CN201910183241 A CN 201910183241A CN 109947835 B CN109947835 B CN 109947835B
Authority
CN
China
Prior art keywords
automaton
finite state
state
quotation
dyeing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910183241.7A
Other languages
English (en)
Other versions
CN109947835A (zh
Inventor
唐文辉
刘国华
王国栋
武治含
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201910183241.7A priority Critical patent/CN109947835B/zh
Publication of CN109947835A publication Critical patent/CN109947835A/zh
Application granted granted Critical
Publication of CN109947835B publication Critical patent/CN109947835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,根据实际报价流程及要求给出非确定有限状态自动机的形式化定义,通过该非确定有限状态自动机模拟真实报价流程,逐步引导用户给出准确需求,并整理成结构化数据提供给客服。相比现有技术,本发明提供的基于有限状态自动机的印染报价结构化需求数据提取方法具有如下有益效果:方法不依赖人力收集整理需求,显著提升效率;方法处理周期短并且具有可复用性;方法处理成本低,准确率高。

Description

基于有限状态自动机的印染报价结构化需求数据提取方法
技术领域
本发明涉及一种染整行业报价功能中从用户的输入需求中提取结构化数据的方法,属于染整行业。
背景技术
随着工业4.0、大规模定制等概念的提出,越来越多的企业开始向C2M(Customer-to-Manufactory)模式转型。C2M是通过互联网将不同的生产线连接在一起,根据客户的产品订单要求,设定供应商和生产工序,最终生产出个性化产品的工业化定制模式。纺织染整行业作为我国劳动密集较高的传统行业,随着生产管理过程的精细化、智慧化需求不断提高,传统的ERP管理平台已经无法满足日常需求,为了迎接向C2M模式的转型,传统纺织企业必须通过互联网、信息技术与纺织行业的融合发展进行技术改造,在新模式下,首先面临的问题就是如何处理大量个体用户对产品的报价需求。
现今染整行业对解决提取用户报价需求的方法单一,基本是通过电话或是邮件联系客服说明需求来获得报价。原方法存在以下3点缺陷:
1、通过电话联系客服,占用客服大量时间,且一个客服同时只能服务于一个用户,导致客服工作效率低下。
2、通过邮件联系客服,沟通成本高,即时性差,往往由于用户需求模糊导致反复确认,大量累积报价需求,且用户无法得到及时反馈,体验较差。
3、用户提供的需求描述往往是自然语言,并且存在需求模糊的情况,需要客服理解并手动整理成结构化需求,耗时长、准确率低、无复用性。
发明内容
本发明的目的是:帮助染整行业相关工作人员高效准确地整理用户需求并给出报价。
为了达到上述目的,本发明的技术方案是提供了一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,根据实际报价流程及要求给出非确定有限状态自动机的形式化定义,通过该非确定有限状态自动机模拟真实报价流程,逐步引导用户给出准确需求,并整理成结构化数据提供给客服,包括以下步骤:
步骤1、定义可以描述染整行业印染报价需求提取具体流程的非确定有限状态自动机,非确定有限状态自动机被定义为5-元组(Q,Σ,δ,q0,F),其中:Q表示状态的有限集合,将所有可能的需求集合定义为有限状态自动机的有限状态集合Q;Σ表示自动机的字母表,将用户所有可能输入的串的集合定义为自动机的字母表Σ;δ表示状态转移函数,δ:Q×Σ→P(Q),P(Q)表示Q的幂集,将每个状态根据用户不同输入进行状态转移的动作定义为自动机的状态转移函数δ;q0表示初始状态,q0∈Q,初始状态q0为空集;F表示自动机的接受状态,
Figure BDA0001991985840000021
自动机的接受状态F为完整的需求集合;
步骤2、对用户输入的文本进行文本预处理,获取其中有意义的需求部分,形成输入串;
步骤3、非确定有限状态自动机读入上一步形成的输入串后,根据状态转移函数δ得出下一个状态,直到进入接受状态F,完成准确的结构化需求数据采集;
步骤4、将上一步获得的接受状态F反馈给需要的企业。
优选地,步骤2中,使用正则表达式对用户输入的文本进行文本预处理,匹配文本中无意义的空格及字符,文本大小写转换统一处理、文本繁简体转换统一处理,形成所述输入串。
优选地,所述步骤1之后,且所述步骤2之前,还包括以下步骤:
步骤A、将产品所有需求标准的集合存储在数据库中,用于验证输入串是否符合要求;
所述步骤2之后,且所述步骤3之前,还包括以下步骤:
步骤B、利用数据库对输入串进行文本分析,以确认输入串是否符合需求标准。
优选地,所述步骤B还包括:
步骤B01、读取数据库中存储的该需求类别所有标准需求数据;
步骤B02、对上一步获得的输入串与步骤B01获得的标准需求数据进行相似度匹配,并根据预定义的阈值返回匹配结果;
步骤B03、对经过步骤B02处理后的输入串进行语义分析,判断输入结果是否符合语义,若符合语义,则将输入串按统一标准保存,待下一步处理
本发明针对报价模式落后、提取用户需求效率低下问题,提供了一种基于有限状态自动机的印染报价结构化需求数据提取方法。通过该方法,系统可以自动化地引导用户给出准确报价需求并整理成结构化数据进行可视化展示,从而改善报价模式落后、提取用户需求效率低下问题、减少客服大量重复工作、提高客服报价效率及准确率。
相比现有技术,本发明提供的基于有限状态自动机的印染报价结构化需求数据提取方法具有如下有益效果:
1、方法不依赖人力收集整理需求,显著提升效率;
2、方法处理周期短并且具有可复用性;
3、方法处理成本低,准确率高。
附图说明
图1是基于有限状态自动机的印染报价结构化需求数据提取方法中定义的非确定有限状态自动机。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
本发明提供的一种基于有限状态自动机的印染报价结构化需求数据提取方法根据实际报价流程及要求给出有限状态自动机的形式化定义,通过该有限状态自动机模拟真实报价流程,逐步引导用户给出准确需求,并整理成结构化数据提供给客服。
基于有限状态自动机的印染报价结构化需求数据提取方法从以下两方面完成对用户需求的提取和整理:
一)定义非确定有限状态自动机NFA。非确定有限状态自动机NFA通常被定义为5-元组(Q,Σ,δ,q0,F),它构成自:状态的有限集合Q;输入符号的有限集合Σ;转移函数δ:Q×Σ→P(Q),P(Q)表示Q的幂集;初始状态q0,q0∈Q;状态的集合F,
Figure BDA0001991985840000031
在本方法中,用户的合理需求是一个正则语言,需要解决的理论问题为:用户的输入串是否属于这个正则语言。非确定有限状态自动机作为本方法的理论基础,通过模拟真实报价流程,将所有可能的需求集合定义为有限状态自动机的有限状态集合Q;将用户所有可能输入的串的集合定义为自动机的字母表Σ;将每个状态根据用户不同输入进行状态转移的动作定义为自动机的状态转移函数δ;将状态S1,即空集,定义为自动机的初始状态q0;将状态S6,即完整的需求集合,定义为自动机的接受状态F。从而得出有限状态自动机的形式化定义。该自动机一开始运行即进入初始状态,等待输入串,每次读入输入串就会根据状态转移函数得出下一个状态,直到进入接受状态,则代表准确的结构化需求数据采集完毕。
图1所示的非确定有限状态自动机的形式化定义为:
Q={S1、S2、S3、S4、S5、S6}
Σ={a、b、c、d、e、f、g、h}
S=S1
F={S6}
二)用户输入文本处理分析。用户每次输入的串都需要进行文本预处理才能被自动机正确读入,由于用户输入的串为自然语言,可能包含一些与需求无关的字符等,需要进行预处理才能获取用户输入串中有意义的部分,再作为输入串被自动机读入从而进入下一个状态。本发明使用正则表达式对输入串进行文本预处理,匹配输入串中无意义的空格及字符,文本大小写转换统一处理、文本繁简体转换统一处理。除了对输入字符的文本预处理之外,对于一些有具体要求的需求,例如产品型号,我们也需要预先进行文本分析,将用户输入的型号需求与数据库中所有存在的产品型号进行比对,以确认输入的型号是否真实存在,只有准确对用户的输入进行处理分析后,才能确保我们定义的非确定有限状态自动机正确读取输入串。
具体而言,本发明包括以下步骤:
步骤1、定义一台可以描述染整行业印染报价需求提取具体流程的非确定有限状态自动机,给出其准确的形式化定义。具体过程如下:
1)本发明方法中非确定有限状态自动机定义了6个状态,描述了所有可能提取到的用户需求集合。初试状态S1为空集,表示未提取用户需求;接受状态为S6,表示用户完整报价需求提取完毕,如下所示:
S1:
Figure BDA0001991985840000041
S2:{型号}
S3:{型号,质量要求-外观}
S4:{型号,质量要求-外观,质量要求-内在}
S5:{型号,质量要求-外观,质量要求-内在,包装要求}
S6:{型号,质量要求-外观,质量要求-内在,包装要求,备注}
2)方法中非确定有限状态自动机定义了8个输入符号,表示用户所有输入可能性,如下所示:
a:存在的型号
b:合理的外观质量要求
c:合理的内在质量要求
d:包装要求
e:备注信息
f:不存在的型号
g:不合理的外观质量要求
h:不合理的内在质量要求
3)方法中非确定有限状态自动机定义了8个状态转移函数,表示状态对于不同输入串的所有转移情况,如下所示:
δ(S1,a)=S2
δ(S2,b)=S3
δ(S3,c)=S4
δ(S4,d)=S5
δ(S5,e)=S6
δ(S1,f)=S1
δ(S2,g)=S2
δ(S3,h)=S3
4)使用javascript state machine模拟实现方法中定义的非确定有限状态自动机。
步骤2、将产品所有需求标准的集合存储在数据库中,用于验证用户输入串是否符合要求。本实施例中所使用的数据库平台为MongoDB,使用Node.js作为计算引擎。
步骤3、对用户的输入串进行文本预处理,获取其中有意义的需求部分。具体过程如下:
1)使用正则表达式匹配处理输入串中无效空格及符号
2)对输入串进行大小写转换统一处理;
3)对输入串进行繁简体转换统一处理;
4)存储经过文本预处理后的数据。
步骤4、对用户的输入串进行文本分析,以确认输入串是否符合需求标准。具体过程如下:
1)读取数据库中存储的该需求类别所有标准需求数据;
2)对步骤3中处理后的结果数据与标准数据进行相似度匹配并根据预定义的阈值返回匹配结果;
3)对处理后的输入串进行语义分析,判断输入结果是否符合语义;
4)对文本分析后的结果按统一标准保存。
步骤5、对采集的报价需求结构化数据进行可视化展示并反馈。具体过程如下:
1)以表格样式统一整理并展示用户结构化需求以及报价结果;
2)将提取结果以报告形式反馈给企业。

Claims (4)

1.一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,根据实际报价流程及要求给出非确定有限状态自动机的形式化定义,通过该非确定有限状态自动机模拟真实报价流程,逐步引导用户给出准确需求,并整理成结构化数据提供给客服,包括以下步骤:
步骤1、定义可以描述染整行业印染报价需求提取具体流程的非确定有限状态自动机,非确定有限状态自动机被定义为5-元组(Q,Σ,δ,q0,F),其中:Q表示状态的有限集合,将所有可能的需求集合定义为有限状态自动机的有限状态集合Q;Σ表示自动机的字母表,将用户所有可能输入的输入串的集合定义为自动机的字母表Σ;δ表示状态转移函数,δ:Q×Σ→P(Q),P(Q)表示Q的幂集,将每个状态根据用户不同输入进行状态转移的动作定义为自动机的状态转移函数δ;q0表示初始状态,q0∈Q,初始状态q0为空集;F表示自动机的接受状态,
Figure FDA0004056072760000011
自动机的接受状态F为完整的需求集合;
步骤2、对用户输入的文本进行文本预处理,获取其中有意义的需求部分,形成输入串;
步骤3、非确定有限状态自动机读入上一步形成的输入串后,根据状态转移函数δ得出下一个状态,直到进入接受状态F,完成准确的结构化需求数据采集;
步骤4、将上一步获得的接受状态F反馈给需要的企业。
2.如权利要求1所述的一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,步骤2中,使用正则表达式对用户输入的文本进行文本预处理,匹配文本中无意义的空格及字符,文本大小写转换统一处理、文本繁简体转换统一处理,形成所述输入串。
3.如权利要求1所述的一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,所述步骤1之后,且所述步骤2之前,还包括以下步骤:
步骤A、将产品所有需求标准的集合存储在数据库中,用于验证输入串是否符合要求;
所述步骤2之后,且所述步骤3之前,还包括以下步骤:
步骤B、利用数据库对输入串进行文本分析,以确认输入串是否符合需求标准。
4.如权利要求3所述的一种基于有限状态自动机的印染报价结构化需求数据提取方法,其特征在于,所述步骤B还包括:
步骤B01、读取数据库中存储的该需求类别所有标准需求数据;
步骤B02、对步骤2获得的输入串与步骤B01获得的标准需求数据进行相似度匹配,并根据预定义的阈值返回匹配结果;
步骤B03、对经过步骤B02处理后的相匹配的输入串进行语义分析,判断输入结果是否符合语义,若符合语义,则将输入串按统一标准保存,待下一步处理。
CN201910183241.7A 2019-03-12 2019-03-12 基于有限状态自动机的印染报价结构化需求数据提取方法 Active CN109947835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910183241.7A CN109947835B (zh) 2019-03-12 2019-03-12 基于有限状态自动机的印染报价结构化需求数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910183241.7A CN109947835B (zh) 2019-03-12 2019-03-12 基于有限状态自动机的印染报价结构化需求数据提取方法

Publications (2)

Publication Number Publication Date
CN109947835A CN109947835A (zh) 2019-06-28
CN109947835B true CN109947835B (zh) 2023-05-23

Family

ID=67009618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910183241.7A Active CN109947835B (zh) 2019-03-12 2019-03-12 基于有限状态自动机的印染报价结构化需求数据提取方法

Country Status (1)

Country Link
CN (1) CN109947835B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887280B (zh) * 2021-01-13 2022-05-31 中国人民解放军国防科技大学 一种基于自动机的网络协议元数据提取系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201214319A (en) * 2010-07-26 2012-04-01 Nyse Group Inc Apparatuses, methods and systems for a dynamic transaction management and clearing engine
CN102708155A (zh) * 2012-04-20 2012-10-03 西安电子科技大学 基于回溯自动机语法分析的jsax解析器和解析方法
CN103632048A (zh) * 2013-11-20 2014-03-12 中国科学院信息工程研究所 度量正则表达式状态复杂度的方法及装置
CN103647671A (zh) * 2013-12-20 2014-03-19 北京理工大学 一种基于Gur Game的群智感知网络管理方法及其系统
CN107135093A (zh) * 2017-03-17 2017-09-05 西安电子科技大学 一种基于有限自动机的物联网入侵检测方法及检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201214319A (en) * 2010-07-26 2012-04-01 Nyse Group Inc Apparatuses, methods and systems for a dynamic transaction management and clearing engine
CN102708155A (zh) * 2012-04-20 2012-10-03 西安电子科技大学 基于回溯自动机语法分析的jsax解析器和解析方法
CN103632048A (zh) * 2013-11-20 2014-03-12 中国科学院信息工程研究所 度量正则表达式状态复杂度的方法及装置
CN103647671A (zh) * 2013-12-20 2014-03-19 北京理工大学 一种基于Gur Game的群智感知网络管理方法及其系统
CN107135093A (zh) * 2017-03-17 2017-09-05 西安电子科技大学 一种基于有限自动机的物联网入侵检测方法及检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Space-Time Tradeoff in Regular Expression Matching with Semi-Deterministic Finite Automata;Yi-Hua E. Yang 等;《2011 Proceedings IEEE INFOCOM》;20110630;第1853-1861页 *
一种源码级的上下文敏感性检测算法;单征 等;《计算机应用研究》;20170531;第34卷(第5期);第1388-1392页 *

Also Published As

Publication number Publication date
CN109947835A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109918511B (zh) 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN114168716B (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
CN110851667B (zh) 一种多源头大量数据的整合分析方法及工具
CN108985542A (zh) 一种科技项目评价方法及系统
CN110489749B (zh) 一种智能办公自动化系统的业务流程优化方法
CN110334214A (zh) 一种自动识别案件中虚假诉讼的方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN114549241A (zh) 合同审查方法、装置、系统与计算机可读存储介质
CN108228788A (zh) 办事指南自动提取并关联的方法及电子设备
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN109947835B (zh) 基于有限状态自动机的印染报价结构化需求数据提取方法
CN112396437A (zh) 一种基于知识图谱的贸易合同验证方法及装置
CN112966486A (zh) 一种工程量清单智能生成方法、装置、终端及存储介质
CN115983571A (zh) 一种基于人工智能的建筑业施工方案审核方法及其系统
CN115269874A (zh) 一种基于自然语言理解的合同智能审查方法
CN112069315A (zh) 提取文本多维度信息方法、装置、服务器及存储介质
CN110334185A (zh) 一种平台中数据的处理方法和装置
CN109902215A (zh) 一种交易匹配的方法及系统
CN112417852A (zh) 一种代码片段重要性的判断方法和装置
CN112328812B (zh) 基于自调参数的领域知识抽取方法与系统、电子设备
CN115391567A (zh) 风机标准作业知识图谱构建方法、装置及作业机械
CN110413659B (zh) 通用购物小票数据精准提取方法
CN110414819B (zh) 一种工单评分方法
CN113837803A (zh) 一种基于多模型融合的二手手机回收价格预测算法
CN115048503A (zh) 一种基于内容分析的用户偏好标签设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant