CN113589957A - 一种快速输入法律法规专业词语的方法及系统 - Google Patents
一种快速输入法律法规专业词语的方法及系统 Download PDFInfo
- Publication number
- CN113589957A CN113589957A CN202110875195.4A CN202110875195A CN113589957A CN 113589957 A CN113589957 A CN 113589957A CN 202110875195 A CN202110875195 A CN 202110875195A CN 113589957 A CN113589957 A CN 113589957A
- Authority
- CN
- China
- Prior art keywords
- words
- similarity
- word
- input
- character information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 13
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种快速输入法律法规专业词语的方法及系统,所述方法为:获取页面输入框中已输入的文字信息,并对文字信息进行分类,判断所属的类别;根据文字信息的类别,从后台知识库的词库中查询相似大于预设值的词语;展示相似度最高的前几条词语,选择相应的词语,插入至页面输入框。本发明解决了现有法律法规专业名词输入耗费时间多、准确度低的问题。
Description
技术领域
本发明涉及智能输入法技术领域,具体涉及一种快速输入法律法规专业词语的方法及系统。
背景技术
目前,终端通常采用各种各样的输入法来辅助用户输入,利用输入法来提高用户输入的效率在很大程度上取决于输入法的智能联想功能。现有输入法只能根据用户之前输入的历史记录、输入习惯等来为用户提供智能联想词汇以提示用户输入。然而,根据终端所处的不同场景,用户可能需要输入的词汇种类也各不相同,现有的输入法中只能根据历史记录、输入习惯等为用户提供相对固定的智能联想词汇,而无法为用户根据不同场景推荐准确的联想词汇,从而无法提高用户利用输入法中的联想词汇进行输入的效率。
并且针对法律行业,专业法律词语较多,在进行法律文书的撰写过程中,输入相关的专业法律词语需要花费较多时间,无法根据历史法律文书、文件、现有法规信息,进行联想输入,导致工作效率低。
发明内容
为此,本发明提供一种快速输入法律法规专业词语的方法及系统,以解决现有法律法规专业名词输入耗费时间多、准确度低的问题。
为了实现上述目的,本发明提供如下技术方案:
根据本发明的第一方面,公开了一种快速输入法律法规专业词语的方法,所述方法为:
获取页面输入框中已输入的文字信息,并对文字信息进行分类,判断所属的类别;
根据文字信息的类别,从后台知识库的词库中查询相似度大于预设值的词语;
展示相似度最高的前几条词语,选择相应的词语,插入至页面输入框。
进一步地,所述获取页面输入框中已输入文字信息步骤中,主动获取用户输入的文字,匹配文字信息的类别,确定所属的词库。
进一步地,所述确定所属的词库后,遍历词库中的所有词语,每个词语具有自己的特征信息,计算词库中的词语与输入框中的文字信息的相似度。
进一步地,所述计算词库中的词语与输入框中的文字信息的相似度后,将相似度大于预设值的词语挑出,并对相似度进行排序,从高至低依次排列。
进一步地,所述计算词库中的词语与输入框中的文字信息的相似度的方法为:
将输入的文字信息与词库中的词语分别输入至BERT模型中;
BERT模型输出字向量到池化层;
池化层将字向量池化成句向量表示;
计算两个句向量余弦相似度值。
进一步地,所述词库中的词语进行相似度排序后,展示相似度最高的几条词语,用户选择需要输入的词语,插入至页面输入框,实现快速输入法律法规专业词语。
根据本发明的第二方面,公开了一种快速输入法律法规专业词语的系统,所述系统包括:
内容获取模块、类别区分模块、相似度比对模块、展示模块和选择模块;
所述内容获取模块获取用户在输入框内输入的文字信息;
所述类别区分模块针对输入的文字信息判断类别,匹配相应的词库;
所述相似度比对模块将输入的文字信息与词库中的词语进行相似度比对;
所述展示模块将相似度大于预设值的词语进行展示,并按照相似度从高至低的顺序进行排列,显示前几条词语;
所述选择模块选择相应的词语,插入至页面输入框。
进一步地,所述相似度比对模块将输入的文字信息和词库中的词语即分别输入至BERT模型,BERT输出字向量到池化层,池化层将字向量池化成句向量,计算两个句向量余弦相似度值。
进一步地,所述展示模块为手机、平板电脑、台式电脑终端,展示相似度前几位的词语。
本发明具有如下优点:
本发明公开了一种快速输入法律法规专业词语的方法及系统,根据输入的文字信息,判断其类别,从词库中挑选相似度大于80%的前五个词语,选择需要的词语,实现法律法规专业词语的快速输入,提升准确度和工作效率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种快速输入法律法规专业词语的方法流程图;
图2为本发明实施例提供的计算词库中的词语与输入框中的文字信息的相似度方法的流程图;
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例公开了一种快速输入法律法规专业词语的方法,所述方法为:
获取页面输入框中已输入的文字信息,并对文字信息进行分类,判断所属的类别;
根据文字信息的类别,从后台知识库的词库中查询相似度80%以上的词语;
展示相似度最高的前五条词语,选择相应的词语,插入至页面输入框。
获取页面输入框中已输入文字信息步骤中,主动获取用户输入的文字,匹配文字信息的类别,确定所属的词库。例如输入的文字信息为“治安”,则会判断“治安”一词属于法律条款的词库。
确定所属的词库后,遍历词库中的所有词语,每个词语具有自己的特征信息,计算词库中的词语与输入框中的文字信息的相似度,计算词库中的词语与输入框中的文字信息的相似度后,将相似度大于80%的词语挑出,并对相似度进行排序,从高至低依次排列。词库中的词语进行相似度排序后,展示相似度最高的五条词语,用户选择需要输入的词语,插入至页面输入框,实现快速输入法律法规专业词语。
本实施例中法律条款词库中相似度排序前五个依次为“管理处罚法”、“条例”、“拘留”、“大队”、“员”,实际需要输入“治安管理处罚法”,则选择相似度最高的“管理处罚法”,则完成了“治安管理处罚法”的快速输入。
计算词库中的词语与输入框中的文字信息的相似度的方法为:
将输入的文字信息与词库中的词语分别输入至BERT模型中;BERT:BidirectionalEncoder Representations from Transformer,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即:文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务,Sentence-BERT:是基于预训练过的BERT的孪生网络,能够获得在语义上有足够意义的篇章向量;
BERT模型输出字向量到池化层;池化也称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。
池化层将字向量池化成句向量表示;句向量能够将输入的句子映射成一个固定维度的向量,用来表示这个句子的语义特征,可用于文本聚类、文本相似度、文本分类等任务,能够显著提高它们的效果;
计算两个句向量余弦相似度值,余弦相似度又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估两者的相似度。
本实施例公开的除了快速输入法律法规专业词语的方法,除了能够应用于法律法规行业,在机械制造、环境保护等多个领域均能应用。
实施例2
本实施例公开了一种快速输入法律法规专业词语的系统,所述系统包括:
内容获取模块、类别区分模块、相似度比对模块、展示模块和选择模块;
所述内容获取模块获取用户在输入框内输入的文字信息;
所述类别区分模块针对输入的文字信息判断类别,匹配相应的词库;
所述相似度比对模块将输入的文字信息与词库中的词语进行相似度比对;
所述展示模块将相似度大于80%的词语进行展示,并按照相似度从高至低的顺序进行排列,显示前五条词语;
所述选择模块选择相应的词语,插入至页面输入框。
相似度比对模块将输入的文字信息和词库中的词语即分别输入至BERT模型,BERT输出字向量到池化层,池化层将字向量池化成句向量,计算两个句向量余弦相似度值。
展示模块为手机、平板电脑、台式电脑终端,展示相似度前五位的词语,便于用户快速选择想要输入的词语。
本实施例公开的一种快速输入法律法规专业词语的系统,根据输入的文字信息,判断其类别,从词库中挑选相似度大于80%的前五个词语,选择需要的词语,实现法律法规专业词语的快速输入,提升准确度和工作效率。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种快速输入法律法规专业词语的方法,其特征在于,所述方法为:
获取页面输入框中已输入的文字信息,并对文字信息进行分类,判断所属的类别;
根据文字信息的类别,从后台知识库的词库中查询相似度大于预设值的词语;
展示相似度最高的前几条词语,选择相应的词语,插入至页面输入框。
2.如权利要求1所述的一种快速输入法律法规专业词语的方法,其特征在于,所述获取页面输入框中已输入文字信息步骤中,主动获取用户输入的文字,匹配文字信息的类别,确定所属的词库。
3.如权利要求2所述的一种快速输入法律法规专业词语的方法,其特征在于,所述确定所属的词库后,遍历词库中的所有词语,每个词语具有自己的特征信息,计算词库中的词语与输入框中的文字信息的相似度。
4.如权利要求3所述的一种快速输入法律法规专业词语的方法,其特征在于,所述计算词库中的词语与输入框中的文字信息的相似度后,将相似度大于预设值的词语挑出,并对相似度进行排序,从高至低依次排列。
5.如权利要求3所述的一种快速输入法律法规专业词语的方法,其特征在于,所述计算词库中的词语与输入框中的文字信息的相似度的方法为:
将输入的文字信息与词库中的词语分别输入至BERT模型中;
BERT模型输出字向量到池化层;
池化层将字向量池化成句向量表示;
计算两个句向量余弦相似度值。
6.如权利要求4所述的一种快速输入法律法规专业词语的方法,其特征在于,所述词库中的词语进行相似度排序后,展示相似度最高的几条词语,用户选择需要输入的词语,插入至页面输入框,实现快速输入法律法规专业词语。
7.一种快速输入法律法规专业词语的系统,其特征在于,所述系统包括:
内容获取模块、类别区分模块、相似度比对模块、展示模块和选择模块;
所述内容获取模块获取用户在输入框内输入的文字信息;
所述类别区分模块针对输入的文字信息判断类别,匹配相应的词库;
所述相似度比对模块将输入的文字信息与词库中的词语进行相似度比对;
所述展示模块将相似度大于预设值的词语进行展示,并按照相似度从高至低的顺序进行排列,显示前几条词语;
所述选择模块选择相应的词语,插入至页面输入框。
8.如权利要求7所述的一种快速输入法律法规专业词语的系统,其特征在于,所述相似度比对模块将输入的文字信息和词库中的词语即分别输入至BERT模型,BERT输出字向量到池化层,池化层将字向量池化成句向量,计算两个句向量余弦相似度值。
9.如权利要求7所述的一种快速输入法律法规专业词语的系统,其特征在于,所述展示模块为手机、平板电脑、台式电脑终端,展示相似度前几位的词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875195.4A CN113589957A (zh) | 2021-07-30 | 2021-07-30 | 一种快速输入法律法规专业词语的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875195.4A CN113589957A (zh) | 2021-07-30 | 2021-07-30 | 一种快速输入法律法规专业词语的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113589957A true CN113589957A (zh) | 2021-11-02 |
Family
ID=78253063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875195.4A Pending CN113589957A (zh) | 2021-07-30 | 2021-07-30 | 一种快速输入法律法规专业词语的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113589957A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543242A (zh) * | 2019-07-25 | 2019-12-06 | 北京智慧章鱼科技有限公司 | 基于bert技术的表情输入法及其装置 |
CN110737839A (zh) * | 2019-10-22 | 2020-01-31 | 京东数字科技控股有限公司 | 短文本的推荐方法、装置、介质及电子设备 |
CN110956044A (zh) * | 2019-12-02 | 2020-04-03 | 北明软件有限公司 | 一种基于注意力机制的司法场景用文案输入识别分类方法 |
CN112035651A (zh) * | 2020-09-25 | 2020-12-04 | 北京小米松果电子有限公司 | 语句补全方法、装置及计算机可读存储介质 |
CN112069783A (zh) * | 2020-09-10 | 2020-12-11 | 卫宁健康科技集团股份有限公司 | 一种病历输入法及其输入系统 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN112416142A (zh) * | 2020-11-20 | 2021-02-26 | 维沃移动通信有限公司 | 输入文字的方法、装置和电子设备 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
-
2021
- 2021-07-30 CN CN202110875195.4A patent/CN113589957A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543242A (zh) * | 2019-07-25 | 2019-12-06 | 北京智慧章鱼科技有限公司 | 基于bert技术的表情输入法及其装置 |
CN110737839A (zh) * | 2019-10-22 | 2020-01-31 | 京东数字科技控股有限公司 | 短文本的推荐方法、装置、介质及电子设备 |
CN110956044A (zh) * | 2019-12-02 | 2020-04-03 | 北明软件有限公司 | 一种基于注意力机制的司法场景用文案输入识别分类方法 |
WO2021139266A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN112069783A (zh) * | 2020-09-10 | 2020-12-11 | 卫宁健康科技集团股份有限公司 | 一种病历输入法及其输入系统 |
CN112035651A (zh) * | 2020-09-25 | 2020-12-04 | 北京小米松果电子有限公司 | 语句补全方法、装置及计算机可读存储介质 |
CN112163431A (zh) * | 2020-10-19 | 2021-01-01 | 北京邮电大学 | 一种基于泛条件随机场的中文缺失代词补全方法 |
CN112416142A (zh) * | 2020-11-20 | 2021-02-26 | 维沃移动通信有限公司 | 输入文字的方法、装置和电子设备 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
US8156097B2 (en) | Two stage search | |
CN112395506A (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
US20070136281A1 (en) | Training a ranking component | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
CN110968800B (zh) | 一种信息推荐方法、装置、电子设备及可读存储介质 | |
CN102789452A (zh) | 类似内容提取方法 | |
CN111125457A (zh) | 一种深度跨模态哈希检索方法及装置 | |
CN112463944A (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111339338B (zh) | 基于深度学习的文本图片匹配推荐方法 | |
CN114443847A (zh) | 文本分类、文本处理方法、装置、计算机设备及存储介质 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN106570196B (zh) | 视频节目的搜索方法和装置 | |
CN113342958A (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN109471927A (zh) | 一种知识库及其建立、问答方法及应用装置 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN112989811A (zh) | 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法 | |
CN113589957A (zh) | 一种快速输入法律法规专业词语的方法及系统 | |
CN114077682B (zh) | 一种图像检索智能识别匹配处理方法、系统和存储介质 | |
CN115794998A (zh) | 一种基于对比学习的专业领域术语挖掘方法 | |
CN113420564B (zh) | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Wu Jun Inventor after: Jiang Xiaofang Inventor after: Xu Wenkai Inventor before: Jiang Xiaofang Inventor before: Wu Jun Inventor before: Xu Wenkai |