CN112136136A - 输入错误检测装置、输入错误检测方法及输入错误检测程序 - Google Patents
输入错误检测装置、输入错误检测方法及输入错误检测程序 Download PDFInfo
- Publication number
- CN112136136A CN112136136A CN201880093603.7A CN201880093603A CN112136136A CN 112136136 A CN112136136 A CN 112136136A CN 201880093603 A CN201880093603 A CN 201880093603A CN 112136136 A CN112136136 A CN 112136136A
- Authority
- CN
- China
- Prior art keywords
- information
- word
- target file
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/10—Requirements analysis; Specification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
在输入错误检测装置(100)中,挑选部(108)挑选在用自然语言记述信息系统的规格的系统规格说明书(117)、及用自然语言记述作为向分析信息系统的分析装置的输入信息的分析装置输入信息(111)和作为来自分析装置的输出信息的分析装置输出信息(112)中的至少任意一个的解析对象文件(116)中共同地出现的单词群。学习部(109)学习系统规格说明书(117)和解析对象文件(116)的各个中的、属于由挑选部(108)挑选的单词群的个别的单词的语义。检测部(110)通过检测系统规格说明书(117)与解析对象文件(116)之间的、由学习部(109)学习的语义的变化,从而确定包含于解析对象文件(116)的、由于分析装置输入信息(111)的输入错误引起的单词的错误。
Description
技术领域
本发明涉及输入错误检测装置、输入错误检测方法以及输入错误检测程序。
背景技术
如专利文献1记载,作为计算单词的重要度的手法,广泛已知TF-IDF法。“TF”是Term Frequency(词频)的简称。“IDF”是Inverse Document Frequency(逆文档频率)的简称。
现有技术文献
专利文献
专利文献1:日本特开2009-064191号公报
发明内容
一般,在需要用户的输入信息的装置中,大部分具备检测输入错误的功能。作为简单的具体例,将判定字符的全角或者半角的错误或者拼写错误的功能、或者判定合计字符数或者合计金额的功能等作为输入界面的一个功能安装的情形较多。
通过这样的输入错误判定技术检测认为输入错误的要素,用注意消息等通知给用户。其结果,用户能意识到输入错误,重新制作正确的输入信息。
在如上述的以往的输入错误检测功能中,需要为了检测输入错误而准备的规则,即输入错误检测规则。因此,在将输入错误检测功能搭载到装置时,装置的开发者需要事先考虑输入信息的内容和形式,分析发生输入错误的条件,制作输入错误检测规则。
作为以往的一般的输入错误检测手法的课题点,可以举出分析装置的开发者需要依赖于分析装置的输入信息的形式来制作输入错误检测规则。
在信息系统自动分析装置中,其课题也是同样的。信息系统自动分析装置是指具备如下功能的装置整体,该功能为:针对信息系统,为了削减设计工序以及开发工序的作业成本、或者、为了提高系统的性能以及安全性等,使用现有的分析手法来评价系统的状态。分析对象的信息系统既可以是不区分个人用或者组织用而在特定的目的下设计或者开发的信息系统,也可以是已经运用的信息系统。
分析装置的输入信息根据分析的目的而取舍选择。如果是针对开发成本的分析,则选择与设备的费用以及人工的成本有关的信息。如果是与针对网络攻击的耐性或者安全性对策有关的分析,则将与设备内的脆弱性以及安全性功能的设定有关的信息选择为输入信息。而且,选择的信息被制作为文章、数值以及图像这样的形式、或者将它们组合的分析装置要求的形式的信息。因此,信息系统自动分析装置的开发者也必须依赖于输入信息的形式来制作输入错误检测规则。
本发明的目的在于提供一种不依赖于输入信息的形式且不需要输入错误检测规则的输入错误检测手法。
本发明的一个方式所涉及的输入错误检测装置,具备:
挑选部,挑选在用自然语言记述信息系统的规格的系统规格说明书、及用自然语言记述向分析所述信息系统的分析装置的输入信息和来自所述分析装置的输出信息中的至少任意一个的解析对象文件中共同地出现的单词群;
学习部,学习所述系统规格说明书和所述解析对象文件的各个中的、属于由所述挑选部挑选的单词群的个别的单词的语义;以及
检测部,通过检测所述系统规格说明书与所述解析对象文件之间的、由所述学习部学习的语义的变化,从而确定包含于所述解析对象文件的、由于所述输入信息的输入错误引起的单词的错误。
在本发明中,学习属于在系统规格说明书和解析对象文件中共同地出现的单词群的个别的单词的语义。然后,检测系统规格说明书与解析对象文件之间的、所学习的语义的变化,从而确定包含于解析对象文件的、由于输入信息的输入错误引起的单词的错误。因此,根据本发明,能够提供不依赖于输入信息的形式且不需要输入错误检测规则的输入错误检测手法。
附图说明
图1是示出实施方式1所涉及的输入错误检测装置的结构的框图。
图2是示出实施方式1所涉及的输入错误检测装置的语言化部的结构的框图。
图3是示出实施方式1所涉及的输入错误检测装置的挑选部的结构的框图。
图4是示出实施方式1所涉及的输入错误检测装置的学习部的结构的框图。
图5是示出实施方式1所涉及的输入错误检测装置的检测部的结构的框图。
图6是示出实施方式1所涉及的输入错误检测装置的动作的流程图。
图7是示出实施方式1所涉及的输入错误检测装置的语言化部的动作的流程图。
图8是示出实施方式1所涉及的输入错误检测装置的挑选部的动作的流程图。
图9是示出实施方式1所涉及的输入错误检测装置的学习部的动作的流程图。
图10是示出实施方式1所涉及的输入错误检测装置的检测部的动作的流程图。
(符号说明)
100:输入错误检测装置;101:处理器;102:存储器;103:辅助存储装置;104:通信设备;105:输入设备;106:显示器;107:语言化部;108:挑选部;109:学习部;110:检测部;111:分析装置输入信息;112:分析装置输出信息;113:输入信息理解部;114:输出信息理解部;115:整合加工部;116:解析对象文件;117:系统规格说明书;118:频繁出现单词抽出部;119:共同单词确定部;120:频繁出现共同单词列表;121:语义向量生成部;122:第1单词语义向量列表;123:第2单词语义向量列表;124:变换矩阵计算部;125:离群向量抽出部;126:离群值调整部;127:向量对应单词检索部;128:输入错误单词列表。
具体实施方式
以下,使用附图,说明本发明的实施方式。在各图中,对同一或者相当的部分附加同一符号。在实施方式的说明中,关于同一或者相当的部分,适当省略或者简化说明。此外,本发明不限定于以下说明的实施方式,能够根据需要进行各种变更。例如,以下说明的实施方式也可以部分性地实施。
实施方式1.
使用图1至图10,说明本实施方式。
***结构的说明***
参照图1,说明本实施方式所涉及的输入错误检测装置100的结构。
输入错误检测装置100是计算机。输入错误检测装置100具备处理器101,并且具备存储器102、辅助存储装置103、通信设备104、输入设备105以及显示器106这样的其他硬件。处理器101经由信号线与其他硬件连接,控制这些其他硬件。
作为功能要素,输入错误检测装置100具备语言化部107、挑选部108、学习部109、以及检测部110。语言化部107、挑选部108、学习部109以及检测部110的功能通过软件实现。具体而言,语言化部107、挑选部108、学习部109以及检测部110的功能通过输入错误检测程序实现。输入错误检测程序是使计算机将由语言化部107、挑选部108、学习部109以及检测部110进行的处理分别作为语言化处理、挑选处理、学习处理以及检测处理执行的程序。输入错误检测程序既可以记录到计算机可读取的介质而提供,也可以保存到记录介质而提供,还可以作为程序产品提供。输入错误检测程序也可以存储到磁盘或者光盘这样的可搬记录介质。
处理器101是执行输入错误检测程序的装置。处理器101例如是CPU。“CPU”是Central Processing Unit的简称。
存储器102以及辅助存储装置103是存储输入错误检测程序的装置。存储器102例如是RAM、闪存存储器或者它们的组合。“RAM”是Random Access Memory的简称。辅助存储装置103例如是HDD、闪存存储器或者它们的组合。“HDD”是Hard Disk Drive的简称。
通信设备104具备:接收器,接收输入到输入错误检测程序的数据;以及发送器,发送从输入错误检测程序输出的数据。通信设备104例如是通信芯片或者NIC。“NIC”是Network Interface Card的简称。
输入设备105是为了向输入错误检测程序输入数据而由用户操作的设备。输入设备105例如是鼠标、键盘、触摸面板、或者它们中的几个或者所有的组合。
显示器106是将从输入错误检测程序输出的数据显示于画面的设备。显示器106例如是LCD。“LCD”是Liquid Crystal Display(液晶显示器)的简称。
输入错误检测程序从辅助存储装置103载入到存储器102,读入到处理器101,由处理器101执行。在辅助存储装置103中,不仅存储有输入错误检测程序,而且还存储有OS。“OS”是Operating System(操作系统)的简称。处理器101一边执行OS一边执行输入错误检测程序。此外,也可以将输入错误检测程序的一部分或者全部嵌入到OS。
输入错误检测装置100也可以具备代替处理器101的多个处理器。这些多个处理器分担输入错误检测程序的执行。各个处理器例如是CPU。
由输入错误检测程序利用、处理或者输出的数据、信息、信号值以及变量值被存储到存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器。
输入错误检测装置100既可以由1台计算机构成,也可以由多台计算机构成。在输入错误检测装置100由多台计算机构成的情况下,也可以将语言化部107、挑选部108、学习部109以及检测部110的功能分散到各计算机而实现。
参照图2,说明语言化部107的结构。
语言化部107具备输入信息理解部113、输出信息理解部114、以及整合加工部115。
语言化部107具有如下功能,即,生成关于从分析装置输入信息111和分析装置输出信息112中的至少任意一个得到的与分析对象系统有关的信息汇总的、用自然语言记述的解析对象文件116。
经由通信设备104输入作为信息系统自动分析装置的输入数据的分析装置输入信息111和作为输出数据的分析装置输出信息112。此外,也可以将分析装置输入信息111和分析装置输出信息112从存储器102预先存储到辅助存储装置103。
由语言化部107生成的解析对象文件116被存储到存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器。此外,解析对象文件116也可以被存储到磁盘或者光盘这样的可搬记录介质。
参照图3,说明挑选部108的结构。
挑选部108具备频繁出现单词抽出部118和共同单词确定部119。
挑选部108具有如下功能,即,从存储于存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器的解析对象文件116、和系统规格说明书117,检索在两者的文章中频繁出现的共同的单词,生成频繁出现共同单词列表120。
经由通信设备104输入系统规格说明书117。此外,系统规格说明书117也可以预先存储到存储器102、或者辅助存储装置103。
作为频繁出现共同单词列表120,也可以使用预先准备的固定的单词列表。或者,也可以将特定的单词加到由挑选部108生成的频繁出现共同单词列表120。
由挑选部108生成的频繁出现共同单词列表120被存储到存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器。此外,频繁出现共同单词列表120也可以被存储到磁盘或者光盘这样的可搬记录介质。
参照图4,说明学习部109的结构。
学习部109具备语义向量生成部121。
学习部109具有如下功能,即,针对存储于存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器的频繁出现共同单词列表120中存在的所有单词,提供基于后述分布假说的语义向量。
提供给单词的语义向量有2种。第1个是从系统规格说明书117学习的第1单词语义向量列表122。第2个是从解析对象文件116学习的第2单词语义向量列表123。
第1单词语义向量列表122和第2单词语义向量列表123以能够唯一地判定各个向量表示频繁出现共同单词列表120的哪个单词的语义的形式被存储到存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器。此外,第1单词语义向量列表122和第2单词语义向量列表123也可以被存储到磁盘或者光盘这样的可搬记录介质。
参照图5,说明检测部110的结构。
检测部110具备变换矩阵计算部124、离群向量抽出部125、离群值调整部126、以及向量对应单词检索部127。
检测部110具有如下功能,即,针对存储于存储器102、辅助存储装置103、或者处理器101内的寄存器或者高速缓存存储器的第1单词语义向量列表122和第2单词语义向量列表123,求出针对同一单词的两个单词语义向量的变换矩阵U,从而生成输入错误单词列表128。
在本实施方式中,着眼于在信息系统自动分析装置分析的对象的系统中在开发时制作有规格说明书这点,提出不依赖于输入信息的形式且不需要输入错误检测规则的输入错误检测手法。
关于本手法,进行详细的解说。
假设根据作为分析对象系统的规格说明书的系统规格说明书117中存在的信息制作有作为信息系统自动分析装置的输入信息的分析装置输入信息111。由此,即使经由由用户实施的分析装置输入信息111的制作作业而将系统规格说明书117内的信息变换为文章、数值以及图像等不同的形式的信息,也能够期待本质上定义的信息是系统规格说明书117中存在的信息的子集。
反过来说,在分析装置输入信息111中存在系统规格说明书117中没有的信息的情况下,其意味着未正确地反映分析对象的系统的状态,即存在输入错误。
在本实施方式中,为了比较系统规格说明书117和分析装置输入信息111中存在的信息,将分析装置输入信息111首先变换为说明该信息的等价的内容的自然语言句子。
例如,在分析装置输入信息111中定义有表示“装置A和装置B用通信路C连接”这样的状态的框图的情况下,该信息被变换为“装置A和装置B用通信路C连接”这样的自然语言句子。
假设产生输入错误,分析装置输入信息111未正确地反映系统规格说明书117中存在的信息的情况下,预测为在变换为自然语言句子的分析装置输入信息111中由于用户的输入错误而存在从本来的语义变化的单词。
在此所指的单词的语义是指基于分布假说的语义。分布假说是指“在语义上近似的语句存在其出现上下文的分布也近似的倾向”[Harris 1954]这样的假说。
假设上述例子是输入错误,在系统规格说明书117中记述为“装置A和装置B用通信路D连接”的情况下,“通信路C”这样的单词在本来出现的“装置A”和“装置B”这样的上下文中不会出现。因此,预测为在系统规格说明书117与分析装置输入信息111之间发生“通信路C”的语义的变化。
通过测量如上述的单词的语义变化,能够检测与输入错误关联的单词。
此外,在单词的语义变化的测量中,应用自然语言处理技术,对系统规格说明书117和变换为自然语言句子的信息系统自动分析装置的分析装置输入信息111进行处理。
在大量发生输入错误,从本来的语义变化的单词多的情况下,难以检测特定的单词的语义变化,但通常输入错误的发生概略较低,所以没有问题。
在本手法中,不仅是分析装置输入信息111,作为信息系统自动分析装置的输出信息的分析装置输出信息112也能够用作语义的变化的测定的材料。作为理由,其原因认为是,如果信息系统分析装置进行妥当的分析,则分析装置输出信息112成为反映分析装置输入信息111的内容的信息,由于输入错误引起的单词的语义的变化在分析装置输出信息112中也出现。
这表示,在分析装置输入信息111无法容易地变换为自然语言句子的情况下,仅用分析装置输出信息112也能够检测输入错误。
***动作的说明***
最初,通过数学上的说明,表示本实施方式所涉及的输入错误检测装置100的动作的概要。
1.从系统规格说明书117和自然语言化的分析装置输入信息111、分析装置输出信息112或者其两方,抽出共同地频繁出现的单词的列表W。
W:={w(1),w(2),…,w(n)}
2.关于W的所有单词w(i),在系统规格说明书117和自然语言化的分析装置输入信息111、分析装置输出信息112或者其两方上,分别计算基于分布假说的语义向量。
v(S,w(i)):=用系统规格说明书117学习的单词w(i)的单词语义向量
v(T,w(i)):=用自然语言化的分析装置输入信息111、分析装置输出信息112或者其两方学习的单词w(i)的单词语义向量
3.计算如满足如下的式的最佳的变换矩阵U。
V(S)·U≒V(T)
在此,V(S):=第i行为v(S,w(i))的矩阵,V(T):=第i行为v(T,w(i))的矩阵。
4.设定某个阈值ε>0,将如满足接下来的式的单词w(i)检测为输入错误。
d([V(S)·U]的第i行,V(T,w(i)))>ε
在此,d(x,y):=距离函数。
接下来,参照图6至图10,详细说明本实施方式所涉及的输入错误检测装置100的动作。输入错误检测装置100的动作相当于本实施方式所涉及的输入错误检测方法。
图6示出输入错误检测装置100的动作的流程。
在步骤S11中,语言化部107接受分析装置输入信息111和分析装置输出信息112。之后,语言化部107将两方的内容变换为自然语言文章,生成将它们整合的解析对象文件116。
此处所称的分析装置输入信息111是指输入到信息系统自动分析装置的信息,是包括用户根据系统规格说明书117制作的信息、并且也许包括输入错误的信息。分析装置输入信息111的形式也可以采用如数值、文章以及图等的任何形式,也可以是这些形式的复合的信息。
分析装置输出信息112是指信息系统自动分析装置根据分析装置输入信息111执行某种分析之后导出的结果。分析装置输出信息112的形式也可以采用如数值、文章以及图等的任何形式,也可以是这些形式的复合的信息。
也可以仅将分析装置输入信息111和分析装置输出信息112的某一方输入到语言化部107。在仅将分析装置输入信息111和分析装置输出信息112中的某一方输入到语言化部107的情况下,语言化部107将一方的内容变换为自然语言句子,原样地作为解析对象文件116。
在步骤S12中,挑选部108接受信息系统自动分析装置的分析对象的系统规格说明书117和语言化部107生成的解析对象文件116。之后,挑选部108利用系统规格说明书117和解析对象文件116的各个,制作频繁出现的单词的列表,确定其共同单词,从而生成频繁出现共同单词列表120。
系统规格说明书117是在一般的系统开发工序中制作的、被称为企划书、设计规格说明书、外部规格说明书、内部规格说明书以及外内部规格说明书等的文件。本实施方式作为对象的规格说明书在广义上只要是“制作分析装置输入信息111的用户在定义系统的信息时作为参考的文件、并且在分析装置输入信息111中使用该文件中存在的同一名称的单词的文件”,则是任意的。
在步骤S13中,学习部109接受由挑选部108生成的频繁出现共同单词列表120、由语言化部107生成的解析对象文件116、以及系统规格说明书117。之后,学习部109针对频繁出现共同单词列表120中存在的所有单词,计算基于分布假说的语义向量,以对各单词附加标签的形式,生成从系统规格说明书117学习的第1单词语义向量列表122和从解析对象文件116学习的第2单词语义向量列表123。
在步骤S14中,检测部110接受由学习部109生成的第1单词语义向量列表122以及第2单词语义向量列表123。之后,检测部110通过计算将第1单词语义向量列表122变换为第2单词语义向量列表123的矩阵来确定输入错误的单词,将输入错误单词列表128输出。
如以上说明,在本实施方式中,语言化部107通过将作为向分析信息系统的分析装置的输入信息的分析装置输入信息111和作为来自分析装置的输出信息的分析装置输出信息112的至少任意一个变换为自然语言句子,生成解析对象文件116。解析对象文件116是用自然语言记述分析装置输入信息111和分析装置输出信息112的至少任意一个的文件。优选为,语言化部107通过整合将分析装置输入信息111变换而得到的自然语言句子和将分析装置输出信息112变换而得到的自然语言句子,生成解析对象文件116。
挑选部108挑选在系统规格说明书117和解析对象文件116中共同地出现的单词群。系统规格说明书117是用自然语言记述信息系统的规格的文件。具体而言,挑选部108将在系统规格说明书117和解析对象文件116中出现的频度超过阈值的单词挑选为属于上述单词群的单词。由挑选部108挑选的单词群被记录到频繁出现共同单词列表120。
学习部109学习系统规格说明书117和解析对象文件116的各个中的、属于由挑选部108挑选的单词群的个别的单词的语义。具体而言,学习部109通过生成按单词表示系统规格说明书117中的上述单词群的语义的第1向量群和按单词表示解析对象文件116中的上述单词群的语义的第2向量群,学习系统规格说明书117和解析对象文件116的各个中的上述个别的单词的语义。由学习部109生成的第1向量群被记录到第1单词语义向量列表122。由学习部109生成的第2向量群被记录到第2单词语义向量列表123。
检测部110通过检测系统规格说明书117与解析对象文件116之间的、由学习部109学习的语义的变化,确定包含于解析对象文件116的、由于分析装置输入信息111的输入错误引起的单词的错误。具体而言,检测部110通过计算对将第1向量群变换为第2向量群的矩阵进行近似的变换矩阵U,按单词比较第2向量群和使用计算的变换矩阵U将第1向量群变换而得到的第3向量群,从而检测系统规格说明书117与解析对象文件116之间的上述变化。第3向量群被记录到第3单词语义向量列表。通过检测部110确定了输入错误所引起的错误的单词被记录到输入错误单词列表128。
图7至图10示出图6中的各处理的详细的动作。图7是步骤S11的详细化,图8是步骤S12的详细化,图9是步骤S13的详细化,图10是步骤S14的详细化。
使用图7,说明步骤S11中的、语言化部107的动作。
在步骤S15中,语言化部107接受分析装置输入信息111和分析装置输出信息112。
在步骤S16中,如果分析装置输入信息111能够自动地变换为自然语言句子,则在步骤S17中,输入信息理解部113承担其变换。具体而言,输入信息理解部113进行从输入的分析装置输入信息111抽出与分析对象系统有关的信息并自然语言化的处理。
在分析装置输入信息111的形式是接近自然语言的形式的情况下,通过单纯的文件加工进行自然语言化。在分析装置输入信息111的形式偏离自然语言的情况下,作为例子,进行以下那样的处理来将其内容自然语言化。
如果是表形式,则用图案化的文章等,对表的每1行的信息进行自然语言化。此时,将表的每1行作为独立的文章进行自然语言化,以避免在表上无关联的单词彼此包含于相同的文章。
如果是图像形式,则通过使用图像识别技术等,对图像的内容进行自然语言化。此时,自然语言化的内容优选为适当地说明了图像中的关于主体和动作的关系的内容,但也可以仅列举图像中的物体的名称。在图像存在多个的情况下,对各个图像进行自然语言化以避免不同的图像中的物体包含于相同的文章,并作为独立的文章进行表现以避免各个图像的语义混同。
在步骤S18中,如果分析装置输出信息112能够自动地变换为自然语言句子,则在步骤S19中,输出信息理解部114进行其变换。具体而言,输出信息理解部114进行从输入的分析装置输出信息112抽出与分析对象系统有关的信息并自然语言化的处理。
在分析装置输出信息112的形式是接近自然语言的形式的情况下,通过单纯的文件加工进行自然语言化。在分析装置输出信息112的形式偏离自然语言的情况下,作为例子,进行以下那样的处理来对其内容进行自然语言化。
如果是表形式,则用图案化的文章等,对表的每1行的信息进行自然语言化。此时,将表的每1行作为独立的文章进行自然语言化,以避免在表上无关联的单词彼此包含于相同的文章。
如果是图像形式,则通过使用图像识别技术等,对图像的内容进行自然语言化。此时,自然语言化的内容优选为适当地说明了图像中的关于主体和动作的关系的内容,但也可以仅列举图像中的物体的名称。在图像存在多个的情况下,对各个图像进行自然语言化以避免不同的图像中的物体包含于相同的文章,并作为独立的文章进行表现以避免各个图像的语义混同。
在步骤S16以及步骤S18中,分析装置输入信息111和分析装置输出信息112无法自动地变换为自然语言句子的情况下,也可以人工地制作解析对象文件116。即,关于分析装置输入信息111的自然语言化的处理,也可以人工地执行。同样地,关于分析装置输出信息112的自然语言化的处理,也可以人工地执行。
在分析装置输入信息111和分析装置输出信息112的某一方的自然语言化困难的情况下,也可以仅对某一方的信息进行自然语言化,生成解析对象文件116。但是,在该情况下,还有可能在学习部109中学习语义的学习数据不足,输入错误检测精度降低。因此,优选为对分析装置输入信息111和分析装置输出信息112这两方的信息进行自然语言化。
步骤S16以及步骤S17的处理和步骤S18以及步骤S19的处理的顺序也可以反过来。
在步骤S20中,整合加工部115将自然语言化的分析装置输入信息111和分析装置输出信息112整合,输出解析对象文件116。即,整合加工部115生成将从通过输入信息理解部113和输出信息理解部114自然语言化的分析装置输入信息111和分析装置输出信息112得到的分析对象系统的信息整合为1个文件的解析对象文件116。
使用图8,说明步骤S12中的、挑选部108的动作。
在步骤S21中,已经由用户或者开发者提示作为检测为输入错误的候补的单词的列表,并保存在存储器102或者辅助存储装置103的情况下,在步骤S26中,挑选部108将其作为频繁出现共同单词列表120输出。
在步骤S22中,挑选部108接受系统规格说明书117和解析对象文件116。
在步骤S23中,频繁出现单词抽出部118制作在系统规格说明书117中频繁出现的单词的列表。此时,作为频繁出现单词适合的单词仅限于对各个文件附加特征的单词,将在通常的文件中频繁出现的普遍的单词等除外。
在步骤S24中,频繁出现单词抽出部118制作在解析对象文件116中频繁出现的单词的列表。此时,作为频繁出现单词适合的单词也仅限于对各个文件附加特征的单词,将在通常的文件中频繁出现的普遍的单词等除外。
在步骤S23以及步骤S24的处理中,也可以活用TF-IDF法。
在步骤S25中,共同单词确定部119从在步骤S23以及步骤S24中制作的列表确定其共同单词,由此生成频繁出现共同单词列表120。
在步骤S26中,共同单词确定部119输出生成的频繁出现共同单词列表120。
使用图9,说明步骤S13中的、学习部109的动作。
在步骤S27中,学习部109接受频繁出现共同单词列表120、系统规格说明书117以及解析对象文件116。
在步骤S28以及步骤S29中,语义向量生成部121针对频繁出现共同单词列表120中存在的所有单词,计算基于分布假说的语义向量。语义向量生成部121以对各单词附加标签的形式,生成从系统规格说明书117学习的第1单词语义向量列表122和从解析对象文件116学习的第2单词语义向量列表123。第1单词语义向量列表122和第2单词语义向量列表123的维数未必一致。
作为用于实现语义向量生成部121的处理的、提供基于分布假说的语义向量的自然语言技术,能够使用word2vec、Latent Semantic Indexing或者Random Indexing等。或者,即便不是在此举出的技术,只要是基于分布假说的、生成多维的语义的特征量向量的自然语言技术,即分散表现,则可以使用任意的技术。
在本实施方式中,根据矩阵变换的拟合的匹配性,检测单词之间的相对的语义关系的变化,确定输入错误单词。因此,作为提供语义向量的手法,优选采用在单词的语义向量彼此产生语义的加法性的构造的word2vec。
步骤S28的处理和步骤S29的处理的顺序也可以反过来。
在步骤S30中,语义向量生成部121输出第1单词语义向量列表122和第2单词语义向量列表123。
使用图10,说明步骤S14中的、检测部110的动作。
在步骤S31中,检测部110接受频繁出现共同单词列表120、第1单词语义向量列表122以及第2单词语义向量列表123。
在步骤S32中,变换矩阵计算部124求出将第1单词语义向量列表122变换为第2单词语义向量列表123的最佳的矩阵U。
在步骤S33中,离群向量抽出部125生成作为第1单词语义向量列表122的矩阵U的像的、第3单词语义向量列表。
在步骤S34中,离群向量抽出部125根据预先提供的微小的正值ε,抽出第3单词语义向量列表与第2单词语义向量列表123之间的距离的差大于ε的第1单词语义向量列表122中的离群向量。作为距离,除了欧几里得距离以外,只要是余弦角等能够比较多维的实数值向量的距离,则可以使用任意的距离。也可以不使用严密的距离,而使用伪距离或者反距离等。
在步骤S35以及步骤S36中,向量对应单词检索部127确定具有离群向量作为标签的单词,作为输入错误单词列表128输出。
在步骤S37中,包含于输入错误单词列表128的单词数过多的情况下,在输入错误以较低的概率发生这样的假设下,在步骤S38中,离群值调整部126调节ε的值。然后,再次反复步骤S34至步骤S36的处理,输出适合的单词数的输入错误单词列表128。
***实施方式的效果的说明***
在本实施方式中,对属于在系统规格说明书117和解析对象文件116中共同地出现的单词群的个别的单词的语义进行学习。然后,通过检测系统规格说明书117与解析对象文件116之间的、学习的语义的变化,从而确定包含于解析对象文件116的、由于分析装置输入信息111的输入错误引起的单词的错误。因此,根据本实施方式,能够提供不依赖于分析装置输入信息111的形式且不需要输入错误检测规则的输入错误检测手法。
在本实施方式中,语言化部107通过将信息系统自动分析装置的输入信息以及输出信息的内容变换为自然语言句子并整合,从而生成用于检测输入错误的解析对象文件116。挑选部108挑选分析对象的系统规格说明书117和解析对象文件116的频繁出现共同单词群。学习部109关于属于频繁出现共同单词群的所有单词,在系统规格说明书117和解析对象文件116中学习基于各自的分布假说的语义。检测部110检测由于输入错误发生的语义的变化,从频繁出现共同单词群中确定认为输入错误的单词。
根据本实施方式,能够确定在信息系统自动分析装置的输入信息上存在的输入错误,自动地对用户反馈认为输入错误的单词的列表。与以往的输入错误检测手法不同,开发者无需准备“什么样的状态是输入错误?”这样的输入错误检测用的规则,能够降低信息系统自动分析装置的输入界面的开发成本。另外,在包含输入错误的状态下进行分析的机会减少,从而还能够期待减少由于不正确的分析结果引起的、系统开发上的返工以及不顺利。
另外,本实施方式中的、将输入信息的内容暂且全部变换为自然语言句子并根据单词的语义变化这样的观点检测输入错误的存在这样的特征还起到如下效果,即,即便分析装置的输入信息的形式是数值、图像以及文件等各种形式,也能够检测输入错误。
这样,在本实施方式中,能够自动地检测在用户手动地制作向用于评价信息系统的状态的信息系统自动分析装置的输入信息的情况下可能发生的输入错误。检测的输入错误被反馈给用户。通过将输入信息暂且变换为等价的内容的自然语言句子,应用基于分布假说的自然语言处理技术,检测是否发生分析对象系统的规格说明书上的不一致,即单词的语义变化,由此执行输入错误的检测。通过本实施方式的效果,除了能够降低为了检测输入错误而开发规则的成本以外,还能够进行用户的正确的输入信息的制作支援。
***其他结构***
在本实施方式中,语言化部107、挑选部108、学习部109以及检测部110的功能通过软件实现,但作为其他变形例,语言化部107、挑选部108、学习部109以及检测部110的功能也可以通过软件和硬件的组合实现。即,也可以语言化部107、挑选部108、学习部109以及检测部110的功能的一部分通过专用的硬件实现,剩余部分通过软件实现。
专用的硬件例如是单一电路、复合电路、程序化的处理器、并行程序化的处理器、逻辑IC、GA、FPGA、ASIC、或者它们中的几个或者所有的组合。“IC”是Integrated Circuit(集成电路)的简称。“GA”是Gate Array(门阵列)的简称。“FPGA”是Field-ProgrammableGate Array(现场可编程门阵列)的简称。“ASIC”是Application Specific IntegratedCircuit(专用集成电路)的简称。
处理器101以及专用的硬件都是处理电路。即,无论语言化部107、挑选部108、学习部109以及检测部110的功能通过软件实现、还是通过软件和硬件的组合实现,语言化部107、挑选部108、学习部109以及检测部110的动作通过处理电路进行。
Claims (7)
1.一种输入错误检测装置,具备:
挑选部,挑选在用自然语言记述信息系统的规格的系统规格说明书、及用自然语言记述向分析所述信息系统的分析装置的输入信息和来自所述分析装置的输出信息中的至少任意一个的解析对象文件中共同地出现的单词群;
学习部,学习所述系统规格说明书和所述解析对象文件的各个中的、属于由所述挑选部挑选的单词群的个别的单词的语义;以及
检测部,通过检测所述系统规格说明书与所述解析对象文件之间的、由所述学习部学习的语义的变化,从而确定包含于所述解析对象文件的、由于所述输入信息的输入错误引起的单词的错误。
2.根据权利要求1所述的输入错误检测装置,其中,
所述学习部通过生成按单词表示所述系统规格说明书中的所述单词群的语义的第1向量群和按单词表示所述解析对象文件中的所述单词群的语义的第2向量群,来学习所述系统规格说明书和所述解析对象文件的各个中的所述个别的单词的语义,
所述检测部计算对将所述第1向量群变换为所述第2向量群的矩阵进行近似的变换矩阵,按单词比较所述第2向量群和使用计算出的变换矩阵变换所述第1向量群而得到的第3向量群,由此检测所述系统规格说明书与所述解析对象文件之间的所述变化。
3.根据权利要求1或者2所述的输入错误检测装置,其中,
还具备语言化部,该语言化部通过将所述输入信息和所述输出信息中的至少任意一个变换为自然语言句子,生成所述解析对象文件。
4.根据权利要求3所述的输入错误检测装置,其中,
所述语言化部通过将变换所述输入信息而得到的自然语言句子和变换所述输出信息而得到的自然语言句子整合,生成所述解析对象文件。
5.根据权利要求1至4中的任意一项所述的输入错误检测装置,其中,
所述挑选部将在所述系统规格说明书和所述解析对象文件中出现的频度超过阈值的单词挑选为属于所述单词群的单词。
6.一种输入错误检测方法,
挑选部挑选在用自然语言记述信息系统的规格的系统规格说明书、及用自然语言记述向分析所述信息系统的分析装置的输入信息和来自所述分析装置的输出信息中的至少任意一个的解析对象文件中共同地出现的单词群,
学习部学习所述系统规格说明书和所述解析对象文件的各个中的、属于由所述挑选部挑选的单词群的个别的单词的语义,
检测部通过检测所述系统规格说明书与所述解析对象文件之间的、由所述学习部学习的语义的变化,从而确定包含于所述解析对象文件的、由于所述输入信息的输入错误引起的单词的错误。
7.一种输入错误检测程序,使计算机执行:
挑选处理,挑选在用自然语言记述信息系统的规格的系统规格说明书、及用自然语言记述向分析所述信息系统的分析装置的输入信息和来自所述分析装置的输出信息中的至少任意一个的解析对象文件中共同地出现的单词群;
学习处理,学习所述系统规格说明书和所述解析对象文件的各个中的、属于通过所述挑选处理挑选的单词群的个别的单词的语义;以及
检测处理,通过检测所述系统规格说明书与所述解析对象文件之间的、通过所述学习处理学习的语义的变化,从而确定包含于所述解析对象文件的、由于所述输入信息的输入错误引起的单词的错误。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/020172 WO2019225007A1 (ja) | 2018-05-25 | 2018-05-25 | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112136136A true CN112136136A (zh) | 2020-12-25 |
Family
ID=68617256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880093603.7A Withdrawn CN112136136A (zh) | 2018-05-25 | 2018-05-25 | 输入错误检测装置、输入错误检测方法及输入错误检测程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210049322A1 (zh) |
JP (1) | JP6837604B2 (zh) |
CN (1) | CN112136136A (zh) |
WO (1) | WO2019225007A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822338A (zh) * | 2021-08-23 | 2021-12-21 | 北京亚鸿世纪科技发展有限公司 | 面向自然语言处理的数据投毒防御方法及系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149680B (zh) * | 2020-09-28 | 2024-01-16 | 武汉悦学帮网络技术有限公司 | 错字检测识别方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259246A (ja) * | 1993-03-09 | 1994-09-16 | Hitachi Ltd | プログラム検証方法とその装置 |
JP2018136585A (ja) * | 2015-05-26 | 2018-08-30 | 株式会社日立製作所 | エンジニアリングドキュメントからの知識抽出方法および装置 |
-
2018
- 2018-05-25 JP JP2020520987A patent/JP6837604B2/ja active Active
- 2018-05-25 WO PCT/JP2018/020172 patent/WO2019225007A1/ja active Application Filing
- 2018-05-25 CN CN201880093603.7A patent/CN112136136A/zh not_active Withdrawn
-
2020
- 2020-10-15 US US17/071,038 patent/US20210049322A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822338A (zh) * | 2021-08-23 | 2021-12-21 | 北京亚鸿世纪科技发展有限公司 | 面向自然语言处理的数据投毒防御方法及系统 |
CN113822338B (zh) * | 2021-08-23 | 2024-05-14 | 北京亚鸿世纪科技发展有限公司 | 面向自然语言处理的数据投毒防御方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2019225007A1 (ja) | 2019-11-28 |
JPWO2019225007A1 (ja) | 2020-09-17 |
US20210049322A1 (en) | 2021-02-18 |
JP6837604B2 (ja) | 2021-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372821B2 (en) | Identification of reading order text segments with a probabilistic language model | |
CN109783796B (zh) | 预测文本内容中的样式破坏 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
JP5544602B2 (ja) | 単語意味関係抽出装置及び単語意味関係抽出方法 | |
EP3989100A1 (en) | Apparatus and method for augmenting texual data | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
US11941361B2 (en) | Automatically identifying multi-word expressions | |
US11462039B2 (en) | Method, device, and storage medium for obtaining document layout | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
US20210049322A1 (en) | Input error detection device, input error detection method, and computer readable medium | |
CN117707922A (zh) | 测试用例的生成方法、装置、终端设备和可读存储介质 | |
US20080181504A1 (en) | Apparatus, method, and program for detecting garbled characters | |
Huo et al. | ARCLIN: automated API mention resolution for unformatted texts | |
US11176311B1 (en) | Enhanced section detection using a combination of object detection with heuristics | |
Yasin et al. | Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text | |
US20210264283A1 (en) | Dataset creation for deep-learning model | |
JP6357912B2 (ja) | 用語集作成支援システムおよび方法、プログラム | |
US20230131259A1 (en) | Apparatus and method of training machine learning model, and apparatus and method for summarizing document using the same | |
US20230377358A1 (en) | Method and apparatus for dechipering obfuscated text for cyber security | |
WO2022123716A1 (ja) | 述語項構造修正プログラム、述語項構造修正方法、および情報処理装置 | |
US20220229982A1 (en) | Information processing apparatus, information learning apparatus, information processing method, information learning method and program | |
CN116681058A (zh) | 文本处理方法、装置及存储介质 | |
JP2006155529A (ja) | 辞書登録装置、辞書登録方法および辞書登録プログラム | |
Pajkossy | Studying feature selection methods applied to classification tasks in natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201225 |
|
WW01 | Invention patent application withdrawn after publication |