CN114118950A - 一种基于项目的咨询方案整理方法和装置 - Google Patents

一种基于项目的咨询方案整理方法和装置 Download PDF

Info

Publication number
CN114118950A
CN114118950A CN202111320811.6A CN202111320811A CN114118950A CN 114118950 A CN114118950 A CN 114118950A CN 202111320811 A CN202111320811 A CN 202111320811A CN 114118950 A CN114118950 A CN 114118950A
Authority
CN
China
Prior art keywords
data
scheme
consultation
electronic document
project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111320811.6A
Other languages
English (en)
Inventor
程鹏
闫碧琼
沈李
丁海伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tendering Group Inc
Original Assignee
Anhui Tendering Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tendering Group Inc filed Critical Anhui Tendering Group Inc
Priority to CN202111320811.6A priority Critical patent/CN114118950A/zh
Publication of CN114118950A publication Critical patent/CN114118950A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于项目的咨询方案整理方法和装置,该方法包括:对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;为每个项目对应的咨询方案配置唯一的标识信息;将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。通过本申请解决了现有技术中无法为项目咨询方案提供数据支持所导致的问题,从而提供了项目咨询的基础数据。

Description

一种基于项目的咨询方案整理方法和装置
技术领域
本申请涉及到文本处理领域,具体而言,涉及一种基于项目的咨询方案整理方法和装置。
背景技术
对于一个项目的咨询意见,需要根据项目的具体情况由项目组的成员来进行提供。这种项目的咨询意见依赖于个项目组成员的个人能力,对于咨询意见的好坏还需要其他有经验的来进行评估。
对于项目组的成员,如果其能力不足,则无法根据项目的具体情况来进行具体意见的提供。目前,随着技术的发展,申请人发现可以通过大数据来提供相关的咨询意见,在现有技术中并没有相关的技术来提供相关数据的支持。
发明内容
本申请实施例提供了一种基于项目的咨询方案整理方法和装置,以至少解决现有技术中无法为项目咨询方案提供数据支持所导致的问题。
根据本申请的一个方面,提供了一种基于项目的咨询方案整理方法,包括:对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;为每个项目对应的咨询方案配置唯一的标识信息;将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
进一步地,对所述电子化文档中的文本文字进行提取包括:对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
进一步地,还包括:确定每个项目所属的类别;将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。
进一步地,所述类别为预先设置的,所述类别包括多个。
进一步地,对已经进行完毕的项目的咨询方案中的文档进行电子化处理包括:对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
根据本申请的另一个方面,还提供了一种基于项目的咨询方案整理装置,包括:处理模块,用于对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;提取模块,用于对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;第一配置模块,用于为每个项目对应的咨询方案配置唯一的标识信息;第二配置模块,用于将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
进一步地,所述提取模块用于:对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
进一步地,所述第二配置模块还用于:确定每个项目所属的类别;将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。
进一步地,所述类别为预先设置的,所述类别包括多个。
进一步地,所述处理模块用于:对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
在本申请实施例中,采用了对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;为每个项目对应的咨询方案配置唯一的标识信息;将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。通过本申请解决了现有技术中无法为项目咨询方案提供数据支持所导致的问题,从而提供了项目咨询的基础数据。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于项目的咨询方案整理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于项目的咨询方案整理方法,图1是根据本申请实施例的基于项目的咨询方案整理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;
例如,对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
步骤S104,对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;
在本步骤中,可以对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
可以将扫描得到的电子化文档作为图片处理,将所述图片分为多个部分,分割方式按照文字行文方向将图片分割成多个子图片,然后对每个子图片分别进行文字识别,得到电子化文档中的文本文字。
为了加快处理速度,可以配置多个线程,其中,每个线程均用于从图片中进行文字识别。将多张子图片分别输入到不同的线程中,每个线程均用于对一个子图片进行文字识别。
进行文字识别的方式有很多,例如,将图像分离为不同的颜色分量(例如,RGB三种颜色分量),确定分别包含在每个所述颜色分量的颜色平面内的图像强度级别(例如,该图像红色占比大于绿色,绿色占比大于蓝色,则红色强度级别大于绿色强度级别,绿色强度级别大于蓝色强度级别,图像强度级别用于指示该颜色像素在整个图像的像素中的占比),根据图像强度级别将图像转换为灰度图像,其中,图像强度级别越高其在灰度图像中约接近于黑色,图像强度级别越低其在灰度图像中约接近白色。对转换成灰度图像中的文字进行识别,这种识别正确率会提高。
在另外一种方式中,可以对彩色图片进行识别得到第一文字段落,对该彩色图片通过上述方式转换得到的灰度图像进行识别得到第二文字段落,比较所述第一文字段落和所述第二文字段落中的文字是否相同,如果相同则确定所述第一文字段落或所述第二文字段落识别正确,并将识别出的文字段落进行保存。
如果所述第一文字段落所述第二文字段落不同,则将识别出的不同的文字以及该不同文字所在的句子进行提取,将提取到的句子放入到第二机器学习模型中,所述第二机器学习模型输出没有错别字的句子,该没有错别字的句子所在的文字段落为被识别正确的文字段落,将该文字段落进行保存。
其中,所述第二机器学习模型使用多组第二训练数据训练得到的,每组第二训练数据包括一个词或一个句子,以及该词或者该句子中所存在的错别字。经过训练之后,该第二机器学习模型就可以使用了。
步骤S106,为每个项目对应的咨询方案配置唯一的标识信息;
步骤S108,将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
在一个可选的实施方式中,可以对一条数据中的每个字段中保存的文字来进行关键字提取,并将提取得到的关键字作为该字段的索引信息保存在索引表格中,并建立索引表格与每条数据中的字段之间的联系。
提取关键字的方式有很多种,例如,可以基于通过输入的检索条件执行在该字段中的检索,其中,检索用到的检索词是在字段中出现次数最多的词,获取在该字段中的检索词所在的位置,与该检索词相邻的词为关联词,计算在所有字段中的搜索词和关联词的同时出现第一概率;获取所述关联词在所有字段中出现的第二概率。在所述第一概率和所述第二概率分别超过第一阈值和第二阈值的情况下,确定所述检索词和所述关联词均作为该字段中提取的关键字。
在一个可选实施方式中,还可以确定每个项目所属的类别;将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。其中,所述类别为预先设置的,所述类别包括可以包括多个。
在配置了关键字之后,可以提供一个网页,该网页用于输入新的项目咨询方案的介绍,根据所述新的项目咨询方案的介绍确定该新的项目咨询方案所属的第一类别,根据所述第一类别从数据库中检索出该第一类别对应数据,将检索到的数据显示给用户。通过这种处理方式可以根据新的项目咨询方案的介绍推荐已经做完的项目咨询方案,供用户进行参考。
根据介绍确定所属的类别可以使用机器学习来进行处理,可以训练一个机器学习模型,该模型使用多组训练数据训练得到的,其中,每一组训练数据均包括一段介绍文字和该段介绍文字所属的类别。通过训练之后,该机器学习模型就可以使用了,将新的项目咨询方案的介绍输入到该机器学习模型中,该机器学习模型就可以输出该介绍对应的类别。
还可以对该新的项目咨询方案的介绍提取第一关键字,根据所述第一关键字进行检索,获取包括所述第一关键字中至少之一的索引信息,获取该索引信息对应的字段,将字段中的内容进行显示。
其中,还可以显示该字段所属的项目,将所述字段中的内容配置为链接,该链接被点击之后获取该项目对应的咨询方案的标识信息,将该标识信息对应的所有条数据均进行显示。
通过上述步骤解决了现有技术中无法为项目咨询方案提供数据支持所导致的问题,从而提供了项目咨询的基础数据。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或系统。该装置被称为基于项目的咨询方案整理装置,包括:处理模块,用于对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;提取模块,用于对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;第一配置模块,用于为每个项目对应的咨询方案配置唯一的标识信息;第二配置模块,用于将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
例如,所述提取模块用于:对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
又例如,所述第二配置模块还用于:确定每个项目所属的类别;将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。可选地,所述处理模块用于:对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
通过本实施例解决了现有技术中无法为项目咨询方案提供数据支持所导致的问题,从而提供了项目咨询的基础数据。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于项目的咨询方案整理方法,其特征在于,包括:
对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;
对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;
为每个项目对应的咨询方案配置唯一的标识信息;
将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
2.根据权利要求1所述的方法,其特征在于,对所述电子化文档中的文本文字进行提取包括:对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定每个项目所属的类别;
将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。
4.根据权利要求3所述的方法,其特征在于,所述类别为预先设置的,所述类别包括多个。
5.根据权利要求1至4中任一项所述的方法,其特征在于,对已经进行完毕的项目的咨询方案中的文档进行电子化处理包括:
对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
6.一种基于项目的咨询方案整理装置,其特征在于,包括:
处理模块,用于对已经进行完毕的项目的咨询方案中的文档进行电子化处理,得到电子化文档;
提取模块,用于对所述电子化文档中的文本文字进行提取,其中,被提取出的所述文本文字按照归属的章节保存在数据库中,保存在数据库中的数据为结构化数据,所述咨询方案中的每一章对应一条数据,每一条数据包括多个字段,每个字段中保存有所述电子化文档中的一段文字;
第一配置模块,用于为每个项目对应的咨询方案配置唯一的标识信息;
第二配置模块,用于将每个咨询方案对应的标识信息配置给该咨询方案中对应的多条数据。
7.根据权利要求6所述的装置,其特征在于,所述提取模块用于:
对所述电子化文档中的进行文字识别得到所述电子化文档中的文本文字。
8.根据权利要求6所述的装置,其特征在于,所述第二配置模块还用于:
确定每个项目所属的类别;将所述每个项目所述的类别配置给该项目的咨询方案中对应的多条数据。
9.根据权利要求8所述的装置,其特征在于,所述类别为预先设置的,所述类别包括多个。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述处理模块用于:
对已经进行完毕的项目的咨询方案中的文档进行扫描得到所述电子化文档。
CN202111320811.6A 2021-11-09 2021-11-09 一种基于项目的咨询方案整理方法和装置 Pending CN114118950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111320811.6A CN114118950A (zh) 2021-11-09 2021-11-09 一种基于项目的咨询方案整理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111320811.6A CN114118950A (zh) 2021-11-09 2021-11-09 一种基于项目的咨询方案整理方法和装置

Publications (1)

Publication Number Publication Date
CN114118950A true CN114118950A (zh) 2022-03-01

Family

ID=80378023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111320811.6A Pending CN114118950A (zh) 2021-11-09 2021-11-09 一种基于项目的咨询方案整理方法和装置

Country Status (1)

Country Link
CN (1) CN114118950A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523471A (zh) * 2023-06-25 2023-08-01 中建西南咨询顾问有限公司 信息生成方法、装置、电子设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043990A (ja) * 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
CN106650664A (zh) * 2016-12-22 2017-05-10 深圳爱拼信息科技有限公司 一种高招大本数据采集系统及方法
CN108962346A (zh) * 2017-05-22 2018-12-07 深圳大森智能科技有限公司 医疗检验报告电子化方法、存储设备及移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005043990A (ja) * 2003-07-23 2005-02-17 Toshiba Corp 文書処理装置および文書処理方法
CN106650664A (zh) * 2016-12-22 2017-05-10 深圳爱拼信息科技有限公司 一种高招大本数据采集系统及方法
CN108962346A (zh) * 2017-05-22 2018-12-07 深圳大森智能科技有限公司 医疗检验报告电子化方法、存储设备及移动终端

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523471A (zh) * 2023-06-25 2023-08-01 中建西南咨询顾问有限公司 信息生成方法、装置、电子设备和计算机可读介质
CN116523471B (zh) * 2023-06-25 2023-09-22 中建西南咨询顾问有限公司 信息生成方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN108932508B (zh) 一种题目智能识别、批改的方法和系统
US10896357B1 (en) Automatic key/value pair extraction from document images using deep learning
US20210224332A1 (en) Chart question answering
CN108121715B (zh) 一种文字标签方法及文字标签装置
CN104573675A (zh) 作业图像的展示方法和装置
US9906588B2 (en) Server and method for extracting content for commodity
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN114118950A (zh) 一种基于项目的咨询方案整理方法和装置
CN112800177B (zh) 基于复杂数据类型的faq知识库自动生成方法和装置
CN112200218B (zh) 一种模型训练方法、装置及电子设备
CN113468323A (zh) 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN114579796B (zh) 机器阅读理解方法及装置
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
CN110825930A (zh) 基于人工智能自动识别社区问答论坛中的正确回答的方法
JP2010026923A (ja) 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
US20210312223A1 (en) Automated determination of textual overlap between classes for machine learning
CN113869043A (zh) 内容标注方法、装置、设备及存储介质
CN113837167A (zh) 一种文本图像识别方法、装置、设备及存储介质
CN114120057A (zh) 一种基于PaddleDetection的混淆矩阵生成方法
CN114996510A (zh) 教学视频分段及信息点提取方法、装置、电子设备和介质
CN112015999A (zh) 风险提示方法、信息提示方法、计算机设备、存储介质
CN113591857A (zh) 字符图像处理方法、装置及古代汉籍图像的识别方法
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination