CN115237859A - 需求文档质量检测方法、装置、设备及存储介质 - Google Patents

需求文档质量检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115237859A
CN115237859A CN202210701599.6A CN202210701599A CN115237859A CN 115237859 A CN115237859 A CN 115237859A CN 202210701599 A CN202210701599 A CN 202210701599A CN 115237859 A CN115237859 A CN 115237859A
Authority
CN
China
Prior art keywords
text
vector
description text
document
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210701599.6A
Other languages
English (en)
Inventor
张燕红
史光辉
王建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210701599.6A priority Critical patent/CN115237859A/zh
Publication of CN115237859A publication Critical patent/CN115237859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能,提供一种需求文档质量检测方法、装置、设备及存储介质。该方法从待检测文档中提取文本信息,并统计信息数量,若信息数量大于或者等于预设字数阈值,划分文本信息,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本,计算背景描述文本与领域描述文本的文本相似度,匹配系统描述文本与预设系统名称的匹配度,基于文本分类预测模型对详情描述文本进行检测,得到概率向量,根据文本相似度、匹配度及概率向量能够准确的生成质量分数。此外,本发明还涉及区块链技术,所述质量分数可存储于区块链中。

Description

需求文档质量检测方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种需求文档质量检测方法、装置、设备及存储介质。
背景技术
目前的需求文档,通常是由需求分析人员通过与业务人员进行需求沟通后编写完成。然而,受到需求分析人员的编写能力的限制,需求分析人员编写生成的需求文档得不到编写质量的保证,从而导致研发效率低下。
因此,如何准确的对需求文档进行质量检测,成了亟需解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种需求文档质量检测方法、装置、设备及存储介质,能够解决如何准确的对需求文档进行质量检测的技术问题。
一方面,本发明提出一种需求文档质量检测方法,所述需求文档质量检测方法包括:
当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
统计所述文本信息的信息数量;
若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算所述背景描述文本与所述领域描述文本的文本相似度;
将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
根据本发明优选实施例,所述根据所述质量检测请求从待检测文档中提取文本信息包括:
从所述质量检测请求中解析出文档存储路径及文档标识;
基于所述文档标识从所述文档存储路径中定位出所述待检测文档;
基于所述待检测文档的属性信息识别出文档格式;
获取与所述文档格式对应的编码方式;
基于所述编码方式从所述待检测文档中读取所述文本信息。
根据本发明优选实施例,所述对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本包括:
从所述文本信息中提取多个模板标签;
定位每个模板标签在所述待检测文档中的标签位置;
将所述标签位置为第一预设位置的模板标签所对应的文本信息确定为所述背景描述文本,并将所述标签位置为第二预设位置的模板标签所对应的文本信息确定为所述领域描述文本;
将所述标签位置为第三预设位置的模板标签所对应的文本信息确定为所述系统描述文本,并将所述标签位置为第四预设位置的模板标签所对应的文本信息确定为所述详情描述文本。
根据本发明优选实施例,所述计算所述背景描述文本与所述领域描述文本的文本相似度包括:
对所述背景描述文本进行分词处理,得到多个初始背景词汇,并对所述领域描述文本进行分词处理,得到多个初始领域词汇;
基于预设停用词表剔除所述多个初始背景词汇中的停用词,得到多个目标背景词汇,并基于所述预设停用词表剔除所述多个初始领域词汇中的停用词,得到多个目标领域词汇;
对每个目标背景词汇进行向量化处理,得到多个第一向量,并计算所述多个第一向量在每个向量维度上的平均值,得到背景向量;
对每个目标领域词汇进行向量化处理,得到多个第二向量,并计算所述多个第二向量在每个向量维度上的平均值,得到领域向量;
根据所述背景向量及所述领域向量计算所述文本相似度,所述文本相似度的计算公式为:
Figure BDA0003704053150000031
其中,sim(a,b)表示所述文本相似度,a表示所述背景向量,b表示所述领域向量,n表示所述向量维度的维度总数,ai表示所述背景向量中的第i个向量维度,bi表示所述领域向量中的第i个向量维度。
根据本发明优选实施例,所述将所述系统描述文本与预设系统名称进行匹配,得到匹配度包括:
遍历所述系统描述文本中的多个待测系统词汇,并定位出每个待测系统词汇在所述系统描述文本中的词汇位置;
选取存在与每个待测系统词汇及对应的词汇位置同时匹配的预设系统名称作为初选系统名称;
统计所述初选系统名称中与所述多个待测系统词汇相匹配的词汇数量作为匹配数量,并统计所述多个待测系统词汇的词汇总量;
计算取值最大的匹配数量在所述词汇总量上的比值作为所述匹配度。
根据本发明优选实施例,所述文本分类预测模型包括输入网络、编码网络及预测网络,所述基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量包括:
基于所述输入网络对所述详情描述文本进行向量化处理,得到文本向量;
从所述编码网络中获取多个编码矩阵;
计算每个编码矩阵与所述文本向量的乘积,得到多个初始向量,所述多个初始向量包括第三向量、第四向量及第五向量;
计算所述第三向量的转置向量与所述第四向量的乘积,得到所述详情描述文本中任意两个详情词汇的相关度;
对所述相关度进行归一化处理,得到所述详情描述文本中任意两个详情词汇的编码权值;
计算所述编码权值与所述第五向量的乘积,得到所述详情描述文本的编码向量;
基于所述预测网络对所述编码向量进行预测处理,得到预测向量;
从所述预测向量中提取与第一预测标签对应的向量作为所述概率向量。
根据本发明优选实施例,所述根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数包括:
基于第一预设公式计算与所述文本相似度对应的第一分数,并基于第二预设公式计算与所述匹配度对应的第二分数;
基于向量分数映射表对所述概率向量进行映射处理,得到第三分数;
对所述第一分数、所述第二分数及所述第三分数进行加权和运算,得到所述质量分数。
另一方面,本发明还提出一种需求文档质量检测装置,所述需求文档质量检测装置包括:
提取单元,用于当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
计算单元,用于统计所述文本信息的信息数量;
划分单元,用于若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算单元,用于计算所述背景描述文本与所述领域描述文本的文本相似度;
匹配单元,用于将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
检测单元,用于基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
生成单元,用于根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述需求文档质量检测方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述需求文档质量检测方法。
由以上技术方案可以看出,本申请通过对所述文本信息的信息数量进行分析,能够初步检测所述待检测文档是否符合基础要求,进而在所述待检测文档满足基础要求的前提下,由于所述背景描述文本与所述领域描述文本属于相互呼应的信息,以及,所述详情描述文本应当包含有描述清楚的业务流程及业务规则,因此,通过结合所述背景描述文本与所述领域描述文本的文本相似度、所述系统描述文本与预设系统名称的匹配度以及所述文本分类预测模型对所述详情描述文本所预测出的概率向量,能够结合需求文档的特性对所述待检测文档的质量进行分析,提高了所述质量分数的准确性。本申请通过对所述待检测文档进行质量检测,能够确保需求文档的信息清晰可理解且有模式可循,从而可以使得研发人员能够快速理解业务的需求,减少了沟通成本,极大地提高了研发效率。
附图说明
图1是本发明需求文档质量检测方法的较佳实施例的流程图。
图2是本发明需求文档质量检测装置的较佳实施例的功能模块图。
图3是本发明实现需求文档质量检测方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明需求文档质量检测方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述需求文档质量检测方法可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
所述需求文档质量检测方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所在的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息。
在本发明的至少一个实施例中,所述质量检测请求可以是负责需求文档检测的用户触发生成,所述质量检测请求也可以是指接收到所述待检测文档的上传反馈时触发生成。
所述待检测文档可以包括技术需求文档、产品需求文档等,所述待检测文档的文档格式可以有多种格式形式,例如,所述待检测文档的文档格式可以是excel、word、txt等格式。
所述文本信息是指所述待检测文档中存储有的信息。
在本发明的至少一个实施例中,所述电子设备根据所述质量检测请求从待检测文档中提取文本信息包括:
从所述质量检测请求中解析出文档存储路径及文档标识;
基于所述文档标识从所述文档存储路径中定位出所述待检测文档;
基于所述待检测文档的属性信息识别出文档格式;
获取与所述文档格式对应的编码方式;
基于所述编码方式从所述待检测文档中读取所述文本信息。
其中,所述文档存储路径是指存储需求文档的路径,所述文档存储路径也可以是指触发所述质量检测请求生成的上传地址。
所述文档标识是指唯一标识所述待检测文档的识别码。
所述编码方式是指在所述待检测文档中编写所述文本信息的方式。
通过结合文档存储路径及文档标识,能够准确的定位出所述待检测文档,基于所述属性信息能够快速的识别出所述文档格式,从而提高所述文本信息的读取效率,同时,基于与所述文档格式对应的编码方式读取所述文本信息,能够提高所述文本信息的读取准确性。
S11,统计所述文本信息的信息数量。
在本发明的至少一个实施例中,所述信息数量是指所述文本信息的总字数。
在本发明的至少一个实施例中,在统计所述文本信息的信息数量之后,所述方法还包括:
比较所述信息数量与预设字数阈值;
若所述信息数量小于所述预设字数阈值,则基于所述信息数量生成第一告警信息。
其中,所述预设字数阈值可以根据需求设定,所述预设字数阈值也可以根据合格的需求文档的平均字数确定。
所述第一告警信息用于表征所述待检测文档在字数维度上不合格及所述待检测文档需要重新修改撰写。
通过上述实施方式,能够在信息数量小于预设字数阈值时,生成所述第一告警信息以说明所述待检测文档在字数维度上不合格。
S12,若所述信息数量大于或者等于所述预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本。
在本发明的至少一个实施例中,所述背景描述文本主要介绍需求来源以及业务现状和问题。
所述领域描述文本主要介绍项目所对应的具体领域信息。
所述系统描述文本主要介绍需求具体应用的系统信息。
所述详情描述文本主要介绍业务流程及业务规则。
在本发明的至少一个实施例中,所述电子设备对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本包括:
从所述文本信息中提取多个模板标签;
定位每个模板标签在所述待检测文档中的标签位置;
将所述标签位置为第一预设位置的模板标签所对应的文本信息确定为所述背景描述文本,并将所述标签位置为第二预设位置的模板标签所对应的文本信息确定为所述领域描述文本;
将所述标签位置为第三预设位置的模板标签所对应的文本信息确定为所述系统描述文本,并将所述标签位置为第四预设位置的模板标签所对应的文本信息确定为所述详情描述文本。
其中,所述多个模板标签包括,但不限于:背景标签、领域标签、系统标签及详情标签等。
所述第一预设位置是指所述背景标签在所述待检测文档中的位置,所述第二预设位置是在所述领域标签在所述待检测文档中的位置,所述第三预设位置是指所述系统标签在所述待检测文档中的位置,所述第四预设位置是在所述详情标签在所述待检测文档中的位置。
通过识别每个模板标签在所述待检测文档中的标签位置,能够利用所述标签位置分别与所述第一预设位置、所述第二预设位置、所述第三预设位置及所述第四预设位置的对应关系,准确的提取到所述背景描述文本、所述领域描述文本、所述系统描述文本及所述详情描述文本。
S13,计算所述背景描述文本与所述领域描述文本的文本相似度。
在本发明的至少一个实施例中,所述文本相似度用于表示所述背景描述文本与所述领域描述文本的适配情况。所述文本相似度越高,所述待检测文档的质量分数越高。
在本发明的至少一个实施例中,所述电子设备计算所述背景描述文本与所述领域描述文本的文本相似度包括:
对所述背景描述文本进行分词处理,得到多个初始背景词汇,并对所述领域描述文本进行分词处理,得到多个初始领域词汇;
基于预设停用词表剔除所述多个初始背景词汇中的停用词,得到多个目标背景词汇,并基于所述预设停用词表剔除所述多个初始领域词汇中的停用词,得到多个目标领域词汇;
对每个目标背景词汇进行向量化处理,得到多个第一向量,并计算所述多个第一向量在每个向量维度上的平均值,得到背景向量;
对每个目标领域词汇进行向量化处理,得到多个第二向量,并计算所述多个第二向量在每个向量维度上的平均值,得到领域向量;
根据所述背景向量及所述领域向量计算所述文本相似度,所述文本相似度的计算公式为:
Figure BDA0003704053150000101
其中,sim(a,b)表示所述文本相似度,a表示所述背景向量,b表示所述领域向量,n表示所述向量维度的维度总数,ai表示所述背景向量中的第i个向量维度,bi表示所述领域向量中的第i个向量维度。
其中,所述预设停用词表可以是直接从互联网中获取到的停用词表。
通过所述预设停用词表能够剔除停用词对所述背景描述文本及所述领域描述文本的干扰,以及,通过计算每个目标背景词汇的第一向量在每个向量维度上的平均值,能够确保所述背景向量中的每个向量维度上都包含有每个目标背景词汇的信息,以及,通过计算每个目标领域词汇的第二向量在每个向量维度上的平均值,能够确保所述领域向量中的每个向量维度上都包含有每个目标领域词汇的信息,从而能够双重提高所述文本相似度的准确性。
S14,将所述系统描述文本与预设系统名称进行匹配,得到匹配度。
在本发明的至少一个实施例中,所述匹配度是指所述待检测文档所应用的系统与现有的系统名称的匹配情况。所述匹配度越高,所述待检测文档的质量分数越高。
所述预设系统名称是指现有的系统名称。
在本发明的至少一个实施例中,所述电子设备将所述系统描述文本与预设系统名称进行匹配,得到匹配度包括:
遍历所述系统描述文本中的多个待测系统词汇,并定位出每个待测系统词汇在所述系统描述文本中的词汇位置;
选取存在与每个待测系统词汇及对应的词汇位置同时匹配的预设系统名称作为初选系统名称;
统计所述初选系统名称中与所述多个待测系统词汇相匹配的词汇数量作为匹配数量,并统计所述多个待测系统词汇的词汇总量;
计算取值最大的匹配数量在所述词汇总量上的比值作为所述匹配度。
例如,所述系统描述文本为ABCD,所述预设系统名称包括系统1的名称:ACDF、系统2的名称ABEF,由于所述系统1的名称中存在A与所述系统描述文本中的A及对应的词汇位置相同,所述系统2的名称中存在A、B与所述系统描述文本中的A、B及对应的词汇位置相同,因此,所述系统1的名称与所述系统2的名称均为所述初选系统名称,经统计,由于所述系统2的名称所对应的匹配数量为2大于所述系统1的名称所对应的匹配数量,因此,所述匹配度为2/4=0.5。
通过结合每个待测系统词汇及对应的词汇位置对所述预设系统名称进行检测,能够准确的筛选出所述初选系统名称及准确的统计出所述匹配数量,从而提高所述匹配度的准确性,同时,由于仅需统计所述初选系统名称中的匹配数量,因此,能够提高所述匹配度的确定效率。
S15,基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量。
在本发明的至少一个实施例中,所述文本分类预测模型包括输入网络、编码网络及预测网络,其中,所述输入网络用于将所述详情描述文本转换为所述编码网络能够识别的信息。所述编码网络用于提取所述输入网络所输出的文本向量中的特征信息。所述预测网络用于预测所述编码网络所输出的编码向量在第一预测标签及第二预测标签上的概率值。其中,所述第一预测标签可以是表征质量好的标签,所述第二预测标签可以是表征质量差的标签。
在本发明的至少一个实施例中,所述电子设备基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量包括:
基于所述输入网络对所述详情描述文本进行向量化处理,得到文本向量;
从所述编码网络中获取多个编码矩阵;
计算每个编码矩阵与所述文本向量的乘积,得到多个初始向量,所述多个初始向量包括第三向量、第四向量及第五向量;
计算所述第三向量的转置向量与所述第四向量的乘积,得到所述详情描述文本中任意两个详情词汇的相关度;
对所述相关度进行归一化处理,得到所述详情描述文本中任意两个详情词汇的编码权值;
计算所述编码权值与所述第五向量的乘积,得到所述详情描述文本的编码向量;
基于所述预测网络对所述编码向量进行预测处理,得到预测向量;
从所述预测向量中提取与第一预测标签对应的向量作为所述概率向量。
其中,所述多个编码矩阵是通过训练所述文本分类预测模型完成时所对应的矩阵信息。
通过计算所述第三向量的转置向量与所述第四向量的乘积,能够准确的识别出所述详情描述文本中任意两个详情词汇的相关度,进而利用所述相关度对所述详情描述文本进行重新编码,能够提高所述编码向量的表征能力,从而提高所述概率向量的准确性。
S16,根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
需要强调的是,为进一步保证上述质量分数的私密和安全性,上述质量分数还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述质量分数是指所述待检测文档进行智能质量检测后所得到的分数。所述质量分数用于衡量所述待检测文档的质量。
在本发明的至少一个实施例中,所述电子设备根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数包括:
基于第一预设公式计算与所述文本相似度对应的第一分数,并基于第二预设公式计算与所述匹配度对应的第二分数;
基于向量分数映射表对所述概率向量进行映射处理,得到第三分数;
对所述第一分数、所述第二分数及所述第三分数进行加权和运算,得到所述质量分数。
其中,所述第一预设公式是指所述文本相似度与分数的关系式,所述文本相似度与分数是正比例关系,因此,所述第一预设公式可以是y=kx,其中,k为大于1的常数,所述第一预设公式也可以是y=kx+b,其中,k为大于1的常数,b为常数。
所述第二预设公式是指所述匹配度与分数的关系式,所述匹配度与分数也是正比例关系。
所述向量分数映射表中存储有向量与分数的映射关系。
通过结合所述文本相似度、所述匹配度及所述概率向量能够准确的检测出所述质量分数。
在本发明的至少一个实施例中,在根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数之后,所述方法还包括:
若所述质量分数小于预设分数阈值,则根据所述文本相似度、所述匹配度及所述概率向量识别出所述待检测文档中的异常描述文本;
根据所述异常描述文本生成第二告警信息。
其中,所述异常描述文本可以是指分数值最低的模块文本,例如,所述匹配度所对应的第二分数最低,则,所述系统描述文本为所述异常描述文本。
所述第二告警信息用于提示用户需要重新撰写的模块文本。
通过上述实施方式,能够准确的识别出所述异常描述文本,从而提醒用户需要重新编写的模块文本,避免了用户对整个所述待检测文档进行重新编写,提高了用户体验。
由以上技术方案可以看出,本申请通过对所述文本信息的信息数量进行分析,能够初步检测所述待检测文档是否符合基础要求,进而在所述待检测文档满足基础要求的前提下,由于所述背景描述文本与所述领域描述文本属于相互呼应的信息,以及,所述详情描述文本应当包含有描述清楚的业务流程及业务规则,因此,通过结合所述背景描述文本与所述领域描述文本的文本相似度、所述系统描述文本与预设系统名称的匹配度以及所述文本分类预测模型对所述详情描述文本所预测出的概率向量,能够结合需求文档的特性对所述待检测文档的质量进行分析,提高了所述质量分数的准确性。本申请通过对所述待检测文档进行质量检测,能够确保需求文档的信息清晰可理解且有模式可循,从而可以使得研发人员能够快速理解业务的需求,减少了沟通成本,极大地提高了研发效率。
如图2所示,是本发明需求文档质量检测装置的较佳实施例的功能模块图。所述需求文档质量检测装置11包括提取单元110、计算单元111、划分单元112、匹配单元113、检测单元114、生成单元115、比较单元116及识别单元117。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到质量检测请求,提取单元110根据所述质量检测请求从待检测文档中提取文本信息。
在本发明的至少一个实施例中,所述质量检测请求可以是负责需求文档检测的用户触发生成,所述质量检测请求也可以是指接收到所述待检测文档的上传反馈时触发生成。
所述待检测文档可以包括技术需求文档、产品需求文档等,所述待检测文档的文档格式可以有多种格式形式,例如,所述待检测文档的文档格式可以是excel、word、txt等格式。
所述文本信息是指所述待检测文档中存储有的信息。
在本发明的至少一个实施例中,所述提取单元110根据所述质量检测请求从待检测文档中提取文本信息包括:
从所述质量检测请求中解析出文档存储路径及文档标识;
基于所述文档标识从所述文档存储路径中定位出所述待检测文档;
基于所述待检测文档的属性信息识别出文档格式;
获取与所述文档格式对应的编码方式;
基于所述编码方式从所述待检测文档中读取所述文本信息。
其中,所述文档存储路径是指存储需求文档的路径,所述文档存储路径也可以是指触发所述质量检测请求生成的上传地址。
所述文档标识是指唯一标识所述待检测文档的识别码。
所述编码方式是指在所述待检测文档中编写所述文本信息的方式。
通过结合文档存储路径及文档标识,能够准确的定位出所述待检测文档,基于所述属性信息能够快速的识别出所述文档格式,从而提高所述文本信息的读取效率,同时,基于与所述文档格式对应的编码方式读取所述文本信息,能够提高所述文本信息的读取准确性。
计算单元111统计所述文本信息的信息数量。
在本发明的至少一个实施例中,所述信息数量是指所述文本信息的总字数。
在本发明的至少一个实施例中,在统计所述文本信息的信息数量之后,比较单元116比较所述信息数量与预设字数阈值;
若所述信息数量小于所述预设字数阈值,则生成单元115基于所述信息数量生成第一告警信息。
其中,所述预设字数阈值可以根据需求设定,所述预设字数阈值也可以根据合格的需求文档的平均字数确定。
所述第一告警信息用于表征所述待检测文档在字数维度上不合格及所述待检测文档需要重新修改撰写。
通过上述实施方式,能够在信息数量小于预设字数阈值时,生成所述第一告警信息以说明所述待检测文档在字数维度上不合格。
若所述信息数量大于或者等于所述预设字数阈值,则划分单元112对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本。
在本发明的至少一个实施例中,所述背景描述文本主要介绍需求来源以及业务现状和问题。
所述领域描述文本主要介绍项目所对应的具体领域信息。
所述系统描述文本主要介绍需求具体应用的系统信息。
所述详情描述文本主要介绍业务流程及业务规则。
在本发明的至少一个实施例中,所述划分单元112对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本包括:
从所述文本信息中提取多个模板标签;
定位每个模板标签在所述待检测文档中的标签位置;
将所述标签位置为第一预设位置的模板标签所对应的文本信息确定为所述背景描述文本,并将所述标签位置为第二预设位置的模板标签所对应的文本信息确定为所述领域描述文本;
将所述标签位置为第三预设位置的模板标签所对应的文本信息确定为所述系统描述文本,并将所述标签位置为第四预设位置的模板标签所对应的文本信息确定为所述详情描述文本。
其中,所述多个模板标签包括,但不限于:背景标签、领域标签、系统标签及详情标签等。
所述第一预设位置是指所述背景标签在所述待检测文档中的位置,所述第二预设位置是在所述领域标签在所述待检测文档中的位置,所述第三预设位置是指所述系统标签在所述待检测文档中的位置,所述第四预设位置是在所述详情标签在所述待检测文档中的位置。
通过识别每个模板标签在所述待检测文档中的标签位置,能够利用所述标签位置分别与所述第一预设位置、所述第二预设位置、所述第三预设位置及所述第四预设位置的对应关系,准确的提取到所述背景描述文本、所述领域描述文本、所述系统描述文本及所述详情描述文本。
所述计算单元111计算所述背景描述文本与所述领域描述文本的文本相似度。
在本发明的至少一个实施例中,所述文本相似度用于表示所述背景描述文本与所述领域描述文本的适配情况。所述文本相似度越高,所述待检测文档的质量分数越高。
在本发明的至少一个实施例中,所述计算单元111计算所述背景描述文本与所述领域描述文本的文本相似度包括:
对所述背景描述文本进行分词处理,得到多个初始背景词汇,并对所述领域描述文本进行分词处理,得到多个初始领域词汇;
基于预设停用词表剔除所述多个初始背景词汇中的停用词,得到多个目标背景词汇,并基于所述预设停用词表剔除所述多个初始领域词汇中的停用词,得到多个目标领域词汇;
对每个目标背景词汇进行向量化处理,得到多个第一向量,并计算所述多个第一向量在每个向量维度上的平均值,得到背景向量;
对每个目标领域词汇进行向量化处理,得到多个第二向量,并计算所述多个第二向量在每个向量维度上的平均值,得到领域向量;
根据所述背景向量及所述领域向量计算所述文本相似度,所述文本相似度的计算公式为:
Figure BDA0003704053150000181
其中,sim(a,b)表示所述文本相似度,a表示所述背景向量,b表示所述领域向量,n表示所述向量维度的维度总数,ai表示所述背景向量中的第i个向量维度,bi表示所述领域向量中的第i个向量维度。
其中,所述预设停用词表可以是直接从互联网中获取到的停用词表。
通过所述预设停用词表能够剔除停用词对所述背景描述文本及所述领域描述文本的干扰,以及,通过计算每个目标背景词汇的第一向量在每个向量维度上的平均值,能够确保所述背景向量中的每个向量维度上都包含有每个目标背景词汇的信息,以及,通过计算每个目标领域词汇的第二向量在每个向量维度上的平均值,能够确保所述领域向量中的每个向量维度上都包含有每个目标领域词汇的信息,从而能够双重提高所述文本相似度的准确性。
匹配单元113将所述系统描述文本与预设系统名称进行匹配,得到匹配度。
在本发明的至少一个实施例中,所述匹配度是指所述待检测文档所应用的系统与现有的系统名称的匹配情况。所述匹配度越高,所述待检测文档的质量分数越高。
所述预设系统名称是指现有的系统名称。
在本发明的至少一个实施例中,所述匹配单元113将所述系统描述文本与预设系统名称进行匹配,得到匹配度包括:
遍历所述系统描述文本中的多个待测系统词汇,并定位出每个待测系统词汇在所述系统描述文本中的词汇位置;
选取存在与每个待测系统词汇及对应的词汇位置同时匹配的预设系统名称作为初选系统名称;
统计所述初选系统名称中与所述多个待测系统词汇相匹配的词汇数量作为匹配数量,并统计所述多个待测系统词汇的词汇总量;
计算取值最大的匹配数量在所述词汇总量上的比值作为所述匹配度。
例如,所述系统描述文本为ABCD,所述预设系统名称包括系统1的名称:ACDF、系统2的名称ABEF,由于所述系统1的名称中存在A与所述系统描述文本中的A及对应的词汇位置相同,所述系统2的名称中存在A、B与所述系统描述文本中的A、B及对应的词汇位置相同,因此,所述系统1的名称与所述系统2的名称均为所述初选系统名称,经统计,由于所述系统2的名称所对应的匹配数量为2大于所述系统1的名称所对应的匹配数量,因此,所述匹配度为2/4=0.5。
通过结合每个待测系统词汇及对应的词汇位置对所述预设系统名称进行检测,能够准确的筛选出所述初选系统名称及准确的统计出所述匹配数量,从而提高所述匹配度的准确性,同时,由于仅需统计所述初选系统名称中的匹配数量,因此,能够提高所述匹配度的确定效率。
检测单元114基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量。
在本发明的至少一个实施例中,所述文本分类预测模型包括输入网络、编码网络及预测网络,其中,所述输入网络用于将所述详情描述文本转换为所述编码网络能够识别的信息。所述编码网络用于提取所述输入网络所输出的文本向量中的特征信息。所述预测网络用于预测所述编码网络所输出的编码向量在第一预测标签及第二预测标签上的概率值。其中,所述第一预测标签可以是表征质量好的标签,所述第二预测标签可以是表征质量差的标签。
在本发明的至少一个实施例中,所述检测单元114基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量包括:
基于所述输入网络对所述详情描述文本进行向量化处理,得到文本向量;
从所述编码网络中获取多个编码矩阵;
计算每个编码矩阵与所述文本向量的乘积,得到多个初始向量,所述多个初始向量包括第三向量、第四向量及第五向量;
计算所述第三向量的转置向量与所述第四向量的乘积,得到所述详情描述文本中任意两个详情词汇的相关度;
对所述相关度进行归一化处理,得到所述详情描述文本中任意两个详情词汇的编码权值;
计算所述编码权值与所述第五向量的乘积,得到所述详情描述文本的编码向量;
基于所述预测网络对所述编码向量进行预测处理,得到预测向量;
从所述预测向量中提取与第一预测标签对应的向量作为所述概率向量。
其中,所述多个编码矩阵是通过训练所述文本分类预测模型完成时所对应的矩阵信息。
通过计算所述第三向量的转置向量与所述第四向量的乘积,能够准确的识别出所述详情描述文本中任意两个详情词汇的相关度,进而利用所述相关度对所述详情描述文本进行重新编码,能够提高所述编码向量的表征能力,从而提高所述概率向量的准确性。
所述生成单元115根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
需要强调的是,为进一步保证上述质量分数的私密和安全性,上述质量分数还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述质量分数是指所述待检测文档进行智能质量检测后所得到的分数。所述质量分数用于衡量所述待检测文档的质量。
在本发明的至少一个实施例中,所述生成单元115根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数包括:
基于第一预设公式计算与所述文本相似度对应的第一分数,并基于第二预设公式计算与所述匹配度对应的第二分数;
基于向量分数映射表对所述概率向量进行映射处理,得到第三分数;
对所述第一分数、所述第二分数及所述第三分数进行加权和运算,得到所述质量分数。
其中,所述第一预设公式是指所述文本相似度与分数的关系式,所述文本相似度与分数是正比例关系,因此,所述第一预设公式可以是y=kx,其中,k为大于1的常数,所述第一预设公式也可以是y=kx+b,其中,k为大于1的常数,b为常数。
所述第二预设公式是指所述匹配度与分数的关系式,所述匹配度与分数也是正比例关系。
所述向量分数映射表中存储有向量与分数的映射关系。
通过结合所述文本相似度、所述匹配度及所述概率向量能够准确的检测出所述质量分数。
在本发明的至少一个实施例中,在根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数之后,若所述质量分数小于预设分数阈值,则识别单元117根据所述文本相似度、所述匹配度及所述概率向量识别出所述待检测文档中的异常描述文本;
所述生成单元115根据所述异常描述文本生成第二告警信息。
其中,所述异常描述文本可以是指分数值最低的模块文本,例如,所述匹配度所对应的第二分数最低,则,所述系统描述文本为所述异常描述文本。
所述第二告警信息用于提示用户需要重新撰写的模块文本。
通过上述实施方式,能够准确的识别出所述异常描述文本,从而提醒用户需要重新编写的模块文本,避免了用户对整个所述待检测文档进行重新编写,提高了用户体验。
由以上技术方案可以看出,本申请通过对所述文本信息的信息数量进行分析,能够初步检测所述待检测文档是否符合基础要求,进而在所述待检测文档满足基础要求的前提下,由于所述背景描述文本与所述领域描述文本属于相互呼应的信息,以及,所述详情描述文本应当包含有描述清楚的业务流程及业务规则,因此,通过结合所述背景描述文本与所述领域描述文本的文本相似度、所述系统描述文本与预设系统名称的匹配度以及所述文本分类预测模型对所述详情描述文本所预测出的概率向量,能够结合需求文档的特性对所述待检测文档的质量进行分析,提高了所述质量分数的准确性。本申请通过对所述待检测文档进行质量检测,能够确保需求文档的信息清晰可理解且有模式可循,从而可以使得研发人员能够快速理解业务的需求,减少了沟通成本,极大地提高了研发效率。
如图3所示,是本发明实现需求文档质量检测方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如需求文档质量检测程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成提取单元110、计算单元111、划分单元112、匹配单元113、检测单元114、生成单元115、比较单元116及识别单元117。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式需求文档质量检测、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种需求文档质量检测方法,所述处理器13可执行所述计算机可读指令从而实现:
当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
统计所述文本信息的信息数量;
若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算所述背景描述文本与所述领域描述文本的文本相似度;
将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
统计所述文本信息的信息数量;
若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算所述背景描述文本与所述领域描述文本的文本相似度;
将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种需求文档质量检测方法,其特征在于,所述需求文档质量检测方法包括:
当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
统计所述文本信息的信息数量;
若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算所述背景描述文本与所述领域描述文本的文本相似度;
将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
2.如权利要求1所述的需求文档质量检测方法,其特征在于,所述根据所述质量检测请求从待检测文档中提取文本信息包括:
从所述质量检测请求中解析出文档存储路径及文档标识;
基于所述文档标识从所述文档存储路径中定位出所述待检测文档;
基于所述待检测文档的属性信息识别出文档格式;
获取与所述文档格式对应的编码方式;
基于所述编码方式从所述待检测文档中读取所述文本信息。
3.如权利要求1所述的需求文档质量检测方法,其特征在于,所述对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本包括:
从所述文本信息中提取多个模板标签;
定位每个模板标签在所述待检测文档中的标签位置;
将所述标签位置为第一预设位置的模板标签所对应的文本信息确定为所述背景描述文本,并将所述标签位置为第二预设位置的模板标签所对应的文本信息确定为所述领域描述文本;
将所述标签位置为第三预设位置的模板标签所对应的文本信息确定为所述系统描述文本,并将所述标签位置为第四预设位置的模板标签所对应的文本信息确定为所述详情描述文本。
4.如权利要求1所述的需求文档质量检测方法,其特征在于,所述计算所述背景描述文本与所述领域描述文本的文本相似度包括:
对所述背景描述文本进行分词处理,得到多个初始背景词汇,并对所述领域描述文本进行分词处理,得到多个初始领域词汇;
基于预设停用词表剔除所述多个初始背景词汇中的停用词,得到多个目标背景词汇,并基于所述预设停用词表剔除所述多个初始领域词汇中的停用词,得到多个目标领域词汇;
对每个目标背景词汇进行向量化处理,得到多个第一向量,并计算所述多个第一向量在每个向量维度上的平均值,得到背景向量;
对每个目标领域词汇进行向量化处理,得到多个第二向量,并计算所述多个第二向量在每个向量维度上的平均值,得到领域向量;
根据所述背景向量及所述领域向量计算所述文本相似度,所述文本相似度的计算公式为:
Figure FDA0003704053140000021
其中,sim(a,b)表示所述文本相似度,a表示所述背景向量,b表示所述领域向量,n表示所述向量维度的维度总数,ai表示所述背景向量中的第i个向量维度,bi表示所述领域向量中的第i个向量维度。
5.如权利要求1所述的需求文档质量检测方法,其特征在于,所述将所述系统描述文本与预设系统名称进行匹配,得到匹配度包括:
遍历所述系统描述文本中的多个待测系统词汇,并定位出每个待测系统词汇在所述系统描述文本中的词汇位置;
选取存在与每个待测系统词汇及对应的词汇位置同时匹配的预设系统名称作为初选系统名称;
统计所述初选系统名称中与所述多个待测系统词汇相匹配的词汇数量作为匹配数量,并统计所述多个待测系统词汇的词汇总量;
计算取值最大的匹配数量在所述词汇总量上的比值作为所述匹配度。
6.如权利要求1所述的需求文档质量检测方法,其特征在于,所述文本分类预测模型包括输入网络、编码网络及预测网络,所述基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量包括:
基于所述输入网络对所述详情描述文本进行向量化处理,得到文本向量;
从所述编码网络中获取多个编码矩阵;
计算每个编码矩阵与所述文本向量的乘积,得到多个初始向量,所述多个初始向量包括第三向量、第四向量及第五向量;
计算所述第三向量的转置向量与所述第四向量的乘积,得到所述详情描述文本中任意两个详情词汇的相关度;
对所述相关度进行归一化处理,得到所述详情描述文本中任意两个详情词汇的编码权值;
计算所述编码权值与所述第五向量的乘积,得到所述详情描述文本的编码向量;
基于所述预测网络对所述编码向量进行预测处理,得到预测向量;
从所述预测向量中提取与第一预测标签对应的向量作为所述概率向量。
7.如权利要求1所述的需求文档质量检测方法,其特征在于,所述根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数包括:
基于第一预设公式计算与所述文本相似度对应的第一分数,并基于第二预设公式计算与所述匹配度对应的第二分数;
基于向量分数映射表对所述概率向量进行映射处理,得到第三分数;
对所述第一分数、所述第二分数及所述第三分数进行加权和运算,得到所述质量分数。
8.一种需求文档质量检测装置,其特征在于,所述需求文档质量检测装置包括:
提取单元,用于当接收到质量检测请求,根据所述质量检测请求从待检测文档中提取文本信息;
计算单元,用于统计所述文本信息的信息数量;
划分单元,用于若所述信息数量大于或者等于预设字数阈值,则对所述文本信息进行划分,得到背景描述文本、领域描述文本、系统描述文本及详情描述文本;
计算单元,用于计算所述背景描述文本与所述领域描述文本的文本相似度;
匹配单元,用于将所述系统描述文本与预设系统名称进行匹配,得到匹配度;
检测单元,用于基于预先训练完成的文本分类预测模型对所述详情描述文本进行检测,并获取所述文本分类预测模型所输出的概率向量;
生成单元,用于根据所述文本相似度、所述匹配度及所述概率向量生成所述待检测文档的质量分数。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的需求文档质量检测方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的需求文档质量检测方法。
CN202210701599.6A 2022-06-20 2022-06-20 需求文档质量检测方法、装置、设备及存储介质 Pending CN115237859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210701599.6A CN115237859A (zh) 2022-06-20 2022-06-20 需求文档质量检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210701599.6A CN115237859A (zh) 2022-06-20 2022-06-20 需求文档质量检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115237859A true CN115237859A (zh) 2022-10-25

Family

ID=83668842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210701599.6A Pending CN115237859A (zh) 2022-06-20 2022-06-20 需求文档质量检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115237859A (zh)

Similar Documents

Publication Publication Date Title
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN113283675B (zh) 指标数据分析方法、装置、设备及存储介质
CN114090794A (zh) 基于人工智能的事理图谱构建方法及相关设备
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN114510487A (zh) 数据表合并方法、装置、设备及存储介质
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN113918467A (zh) 金融系统测试方法、装置、设备及存储介质
CN113342977A (zh) 发票图像分类方法、装置、设备及存储介质
CN113268597A (zh) 文本分类方法、装置、设备及存储介质
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN113516205B (zh) 基于人工智能的员工稳定性分类方法及相关设备
CN116468043A (zh) 嵌套实体识别方法、装置、设备及存储介质
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN112949305B (zh) 负反馈信息采集方法、装置、设备及存储介质
CN113283677B (zh) 指标数据处理方法、装置、设备及存储介质
CN112989820B (zh) 法律文书定位方法、装置、设备及存储介质
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备
CN114942749A (zh) 审批系统开发方法、装置、设备及存储介质
CN115237859A (zh) 需求文档质量检测方法、装置、设备及存储介质
CN113269179A (zh) 数据处理方法、装置、设备及存储介质
CN113177543A (zh) 证件识别方法、装置、设备及存储介质
CN113486680A (zh) 文本翻译方法、装置、设备及存储介质
CN113420545A (zh) 摘要生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination