CN1578972A - 测试系统及其控制方法 - Google Patents

测试系统及其控制方法 Download PDF

Info

Publication number
CN1578972A
CN1578972A CNA038013770A CN03801377A CN1578972A CN 1578972 A CN1578972 A CN 1578972A CN A038013770 A CNA038013770 A CN A038013770A CN 03801377 A CN03801377 A CN 03801377A CN 1578972 A CN1578972 A CN 1578972A
Authority
CN
China
Prior art keywords
mentioned
examinee
computing machine
answer
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA038013770A
Other languages
English (en)
Inventor
藤森进
山下仁司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Benesse Corp
Original Assignee
Benesse Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Benesse Corp filed Critical Benesse Corp
Publication of CN1578972A publication Critical patent/CN1578972A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Complex Calculations (AREA)

Abstract

根据本发明,可提供一种在英语能力测试中不仅可以进行正误2值评价,而且可以进行部分得分的评分的测试·系统。在此测试·系统中,利用包含输入输出装置(207、208)的计算机装置(101、102)和因特网等的网络(103),在项目参数及能力推定上使用对现有的项目反应理论进行修正的部分得分模型。在此部分得分模型中,设想部分得分是正误具有同一参数的多个项目的正误的平均构成的。使用本发明的测试·系统,可使像外语测试的写和说这样的只靠正误难以判定而要求部分得分的出题形式的测试的控制比现有的情况更容易。

Description

测试系统及其控制方法
技术领域
本发明涉及测考系统及其控制方法。更详细说,本发明涉及对依据对现有型的项目反应理论进行修正的部分得分模型,容许在评分之际不是单单以正误2值而是以具有多个阶段的部分得分进行评价的测试以较历来简化的方式进行设计、实施及评价的测考系统及其控制方法。
背景技术
今日,作为设计测试并在其结果处理之际使用的理论,公知的有古典测试理论和项目反应理论两种。关于这些测试理论,比如,在渡部洋编著的“心理统计的技法”(福村出版,2002年)的第6章及第7章中分别予以一般性的解说。另外,测试理论中所谓的测试,包含的不仅是学力测试,也包含心理学的性格检查及临床检查等等,在此申请中,没有将如此广阔的应用领域纳入视野进行抽象的说明,而是为了易于理解,特别将外语考试等的学力测试作为对象尝试予以具体说明。另外,项目反应理论的所谓的“项目”,在学力测试的场合指的是问题。所以,在本申请中,在切合具体例进行说明之际,不使用“项目”而是使用“问题”,不使用“被试者”而是使用“考生”等在学力测试中使用的一般用语。不过,本发明是关于测试理论的通用的发明,并不仅仅限定于学力测试,也可以应用于一般可应用测试理论的上述领域。
古典测试理论,现在应用很广,具有得到的结论与考生的特性的统计分布相关的特征。所以,在以古典理论为依据的场合,在对于特性不同的考生的集团实施的多次测试中得到的平均分及偏差值进行比较是不合适的。
作为克服古典的测试理论的缺点的理论有项目反应理论,现在,基于此项目反应理论进行设计,对结果进行处理的学力测试有很多种。比如,在最近出版的作为项目响应理论的教科书的丰田秀树著“项目反应理论入门编”(朝仓书店,2000年)的第16页上有如下的叙述。“有名的语学考试TOEFL…在一年之间进行数次。并且是在全世界进行。由于同一被试者有可能再次接受测验,相同项目集合的同一测试不能使用两次。因此,平均分和通过率每次测试也都各不相同。由于因地域关系英语能力也有差异,特性值的分布也不同。所以,使用偏差值及正态得分及经验分布函数,在不同测试之间对考试结果进行比较是不可能的。…TOEFL的分(比如,500分、650分等)用于判断可否留学,而与在何处考试、在何时考试及解答何种问题无关。就是说,尽管是异质的考生,在不同的时日,不同的场所接受不同的项目的测验,但被试者却可以接受统一的待遇。构筑使这种待遇成为可能的测试继续向前运用的系统的数理模型,…就是项目反应模型。”
另外,在日本专利特开2002-006734号公报中公开了一种出题是将预定的考试问题预先配置成为树状,相应于考生的解答是否正确而沿着配置成为树状的经路顺序将问题提出,不单单是考虑正解的数目,而且考虑是经过哪一种经路到达最终地点的这一途中经过来推定考生的能力的测试方法及系统。在此公开特许公报中也可见到言及项目反应理论之处。
可是,在基于现有型的理论的项目反应模型中,除了可利用2值评分的○×式的解答以外,比如,对于不得不容许1和0之间的部分分这样形式的问题的处理是不容易的。虽然为了也可以处理多值结果而构筑的阶段反应模型等等早已存在,但是现有的方法具有后述的缺点。所以,如果不容许部分得分,则进行可靠评分很困难的英语作文及口语等,在计算机适应型测试(CAT)中通常不包含。比如,在上述的日本专利特开2002-006734号公报中公开的发明中,明言利用项目反应理论,将预备出题的问题预先配置成为树状,预定当考生对某一问题的解答正确时移动到右下的问题,错误时移动到左下的问题。
发明内容
本发明与这种现有型的预想2值解答的CAT不同,是一种容许给予部分得分的评分的测试·系统,并且其目的在于提供一种与现有的阶段反应模型等复杂模型相比可以相当容易处理部分得分的测试·系统及其控制方法。
根据本发明,可提供其构成包括具有输入装置和输出装置的第1计算机;具有经过包含因特网的网络与上述第1计算机相连接的输入装置和输出装置的第2计算机;经过上述网络与上述第1及第2计算机相连接的测试管理服务器;以及可从上述管理服务器访问的存储有包含预先推定难易度和识别力的项目参数的多个问题的问题数据库;对一个考生提出n问的问题,从上述考生对提出的n问的问题的反应推定上述考生的能力θ的测试·系统。上述测试管理服务器的构成包括:(1)回应从上述第1计算机发送的请求,在对1≤j≤n的问题j的满分设定为1时,从上述问题数据库选择可以容许以0≤rj≤1的部分得分rj的方式进行评分的n问的问题并发送到上述第1计算机的装置;(2)存储对于从上述问题数据库选择并发送到上述第1计算机的问题从上述第1计算机返回的解答的解答存储装置;(3)回应从上述第2计算机发送的请求,读出由上述解答存储装置存储的解答并发送到上述第2计算机的装置;(4)从上述第2计算机接收并存储对于发送到上述第2计算机的解答给予的部分得分rj的部分得分存储装置;以及(5)利用上述部分得分存储装置存储的部分得分rj和存储在上述问题数据库中的问题j的项目参数,推定获得该部分得分rj的考生的能力θ的能力推定装置。于是,在(5)的上述能力推定装置中,Pj(θ)是在设想部分得分rj作为问题j所固有的,在上述考生对取得正答1或误答0中的任何一个的潜在的反应的潜在的问题重复sj次时,上述考生可潜在地取得的正误反应的平均值的场合,上述考生正确回答上述潜在的问题的几率,可以以下式表示:
(式1)
P j ( θ ) = 1 1 + exp ( - D a j ( θ - b j ) )
此式1中的aj和bj分别是存储于上述问题数据库中的作为问题所固有的特性的识别力和困难度,D是等于1.7的常数,在Qj(θ)为1-Pj(θ)时,利用由下面的式2表示的对数似然lpart(θ)
(式2)
l part ( θ ) = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
推定考生的能力θ。不过,以上述的式1表示的Pj(θ)的函数形只是示例而已,Pj(θ)并不一定限定于此表现形式,可以有种种的形式。
此处应注意之处为,可观测的是考生对问题j获得的从0起到1止之间的值部分得分rj,而对潜在的问题考生的潜在的反应是观测不到的。
另外,根据本发明的测试·系统,在对实际观测到的问题j的部分得分rj是由显在的多个正误问题的平均构成的场合,这些正误问题的正答几率的平均也由式1表示,可以利用式2推定考生的能力θ。
另外,根据本发明的测试·系统,在假定实施测试的集团的能力分布之上,对作为sj次的正误的和的2项分布和假设的能力分布的积以能力的维数进行积分而求出部分得分的理论分布函数,也可通过对作为潜在的问题的重复次数的sj的推定使求出的理论分布函数和实际的数据的部分得分的经验分布函数的一致性最好。
另外,在本发明的测试·系统中,在上述第1及第2计算机的上述输出装置和输入装置分别包含声音输出装置和声音输入装置的场合,作为向上述测试服务器发送并存储的解答也可能包含声音数据。在此场合,在第1计算机中出题的内容可包括听的问题和以考生实际讲话为评分对象的说的问题。
另外,本发明,也可以作为控制上述测试·系统的方法而实现。另外,本发明,也有作为存储装载该种测试·系统控制方法的计算机程序的计算机可读存储媒体本身而存在的。此外,也有作为执行该种测试·系统控制方法的计算机程序本身而存在的。
附图说明
图1为本发明的测试·系统的一例的概要。
图2为构成本发明的测试·系统的考生单元的概要。
图3为构成本发明的测试·系统的评分人单元的概要。
图4为示出利用本发明的系统的测试实施的概要的流程图,特别示出涉及到本发明依据的部分得分的有关写和说的测验及评分的过程。
图5为示出为确认利用本发明的测试·系统的能力推定的有效性而实施的被试者12名的得分的稳定性确认调查的结果的曲线图。
图6为示出由图6a至图6g构成的分别确认图5的得分的稳定性确认调查的被试者12名的得分的曲线图。
图7为示出由图7a至图7d构成的在推定重复次数sj之际,在真的s=5、10、20、40的场合,对推定的经验分布和理论分布的分布函数之差的最大值(柯尔莫哥洛夫·斯米尔诺夫检验的统计量)重复数3~10时的曲线图。
图8为示出由图8a和图8b构成的分别推定英语能力测试中的重复次数sj的应用例。
具体实施方式
在对作为本发明的基础的部分得分模型进行说明之前,对一般的2值的项目反应模型予以简单说明。所谓的2值,指的是解答只取正答或误答两个值。在此模型中,考生对问题给出正答的几率是利用表示考生的能力的参数和对问题赋予特征的参数表现的。比如,在本发明中,使用的是利用两个参数(识别力a及困难度b)对各问题赋予特征的2总体参数(参数)逻辑模型,在此场合,具有能力θ的考生i对问题j给出正答的几率可以以下面的式3表示:
(式3)
P j ( x ij = 1 | θ i ) = 1 1 + exp ( - D a j ( θ i - b j ) )
其中,x是如考生i对问题j的回答为正答时为1,为误答时为0的虚变量。另外,D是常数。在此场合,在n问问题结束时的考生的能力θ的似然LB(θ)可写成为下式:
(式4)
L B ( θ ) = Π j n P j x j ( θ ) Q j 1 - x j ( θ )
其中,P(θ)是式3的右边的正答几率,Q(θ)是误答几率,即1-P(θ)。在项目回应理论中,公知和广泛应用的有以给出式4的似然LB(θ)的最大值的θ的值为考生的能力参数的推定值的最似然推定法。不过,因为式4的右边是以积的形式写出,不容易求出最大值,为了改写成为和的形式,一般是求出取两边的自然对数的对数似然ln(LB(θ))的最大值。这是因为自然对数是单调增函数,给出似然LB(θ)的最大值的θ和给出其自然对数ln(LB(θ))的最大值的θ是一致的缘故。
以上是历来公知的一般的2总体参数逻辑模型,但在本发明中使用的部分得分模型中,对问题的反应(解答)的评价不是仅限于正误这样的2值,可以作为部分分进行评价。具体说,式4的虚变量xj不只是1及0共2个值,而是容许取从0至1的大于等于3的多个值(比如,0、0.2、0.4、0.6、0.8、1等6个值)。如果设考生i对问题j的部分得分为rij,则与部分得分相对应的似然可以以下式表示:
(式5)
L part ( θ i ) = Π j n P j r ij ( θ i ) Q j 1 - r ij ( θ i )
如果考虑具体的外语考试,比如,英语考试,若是正误问题及多项选择式问题,则可以作为正答及误答的2值进行处理。不过,对于英语作文及用英语的对话(对提问进行口头回答)作为单纯的正答及误答进行评价就很困难,必须通过给予部分分进行评价。所以,不能采用现有型的2值的项目回应模型。不过,根据式5,则可以将具有任意形式的测试的评分结果变换为部分得分而变成为分析用的数据。
为了解释式5的意思,假设将具有同一问题参数的sj个的问题向同一考生出题。在学力测试的场合,参数是相同的,作为内容,设想提示别的问题是并非无理的设想。在性格检查等之中使用的问卷,也可以认为内容上也提示同一问题的事例,但因为这也会产生与作为项目反应理论的前提的局部独立的假定相反的可能性,此处,设想为提示大致参数相同而内容不同的问题项目。
在一般的项目反应模型中,这种设想条件下的似然,可由式4表示如下:
(式6)
L B ( θ i ) = Π j n Π k s j P j x ijk ( θ i ) Q j 1 - x ijk ( θ i ) = Π j n P j Σ k s j x ijk ( θ i ) Q j Σ k s j ( 1 - x ijk ) ( θ i )
在假定有关全部问题重复的解答sj相等(=s)的场合,如果对此式6取s次方根,可得到下式:
(式7)
L B * ( θ i ) = L B ( θ i ) s = Π j n P j Σ k s x ijk ( θ i ) Q j Σ k s ( 1 - x ijk ) ( θ i ) s = Π j n P j Σ k s x ijk s ( θ i ) Q j 1 - Σ k s x ijk s ( θ i )
因为给出LB(θ)和LB(θ)*的最大值的θ是同一个,所以最似然推定值在式6和式7中相同。如果在式7中令
(式8)
Σ k s x ijk s = r j
则Lpart(θ)和LB *(θ)形式上相同。就是说,在借助参数相同的问题重复所产生的正误的平均而表现部分得分的场合,本发明依据的部分得分模型Lpart(θ)的解和一般的项目反应理论产生的LB(θ)的解,通过LB *(θ)一致。由以上可知,关于在对同一参数的问题实施多次,通过其正误合计或平均而取得成绩的这种类型的部分得分,如果通过对该项目的全部实施结果取其平均而作成从0起到1止之间的部分得分的话,即使是利用部分得分模型Lpart(θ)进行处理,也可以获得与利用现有的2值数据进行的处理同一结果。从式8可导出,如果增加提示的次数sj,实质上可表现从0至1的任意的部分得分。另外,因为在式6和式7之间,如果有s次方根的差异,实际上不方便,所以最好是,如下所述,将式5乘以s,将其自然对数作为部分得分化的对数似然。
(式9)
l part = Σ j = 1 n s { r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) }
此外,在实际的学力测试中,有时出题时出的是互相关联的多个问题。在外语测试的例子中,有时就一定长度的文章提出多个问题的场合等与此相当。不过,这种问题群的存在,有可能与项目反应理论的局部独立的假定相反。
如果从因子分析考虑,假设测试的得分z由测试问题全体测定的因子f1、某一问题群J的公因子f2和各个问题的独自的因子u构成的,则考生i的问题j的得分可以表示如下:
(式10)
zij=fi1a1j+fi2a2j+uj
其中,a是因子负荷。在问题j属于问题群J的场合,a2j不是零,在问题j属于问题群J的场合,a2j=0。在式10中,如对问题群J取和,则可得:
(式11)
Σ j z ij = Σ j f i 1 a 1 j + Σ j f i 2 a 2 j + Σ j u j
其中右边第2项是关于问题群J的公因子f2的和,从因子的正交性的假定可以看作是不具有与其他问题相关性的独自性部分。由于就是在项目反应理论中,也是可以设想项目固有的成分,右边第2项就与此相当。就是说,不触及局部独立的假定就可以了。如果假定因子f1是项目反应理论的能力参数θ,则在测试中取相互关联的问题群的和作为部分得分进行处理就没什么不妥。关于存在局部从属关系的问题进行本发明提倡的处理,从项目反应理论的假定来看只能说倒是所希望的。
设想假如不是完全相同参数的项目,而是在类似参数的项目的重复的情况下,一般2值的似然是因项目j的重复提示的正误模式而异,可以下式表示:
(式12)
L B ( θ i ) = Π j n Π k s j P jk x jk ( θ ) Q jk 1 - x ijk ( θ )
假设θ固定、项目参数给定。如果取式12的对数似然,只取出与类似项目j相关的部分,则可得到:
(式13)
l B ( j ) = Σ k = 1 s ( x k ln ( P k ) + ( 1 - x k ) ln ( 1 - P k ) )
(但是对于正答几率等的添加字j以及θ省略)。于是,对其正误反应×的期望值为:
(式14)
E ( l B ( j ) ) = Σ k = 1 s ( P k ln ( P k ) + ( 1 - P k ) ln ( 1 - P k ) )
并且假设在
(式15)
P ‾ = 1 s Σ k = 1 s P k
(式16)
Pk- P=ΔPk
时,ΔPk,由于各项目是类似项目,很小。如忽略ΔPk的二次以上的项,则下面各式成立:
(式17)
P k ln ( P k ) = ( P ‾ + ΔP k ) ln ( P ‾ + ΔP k )
≅ ( P ‾ + ΔP k ) ( ln ( P ‾ ) + ΔP k × 1 P ‾ )
≅ P ‾ ln ( P ‾ ) + ΔP k ln ( P ‾ ) + ΔP k
(式18)
( 1 - P k ) ln ( 1 - P k ) = ( 1 - P ‾ - ΔP k ) ln ( 1 - P ‾ - ΔP k )
Figure A0380137700148
≅ ( 1 - P ‾ ) ln ( 1 - P ‾ ) - ΔP k - ΔP k ln ( 1 - P ‾ )
将式17及式18代入到式14,如考虑到
(式19)
Σ k = 1 s ΔP k = 0
则可得:
(式20)
E ( l B ( j ) ) ≅ Σ k = 1 s { P ‾ ln ( P ‾ ) + ( 1 - P ‾ ) ln ( 1 - P ‾ ) } + ln ( P ‾ 1 - P ‾ ) Σ k = 1 s ΔP k
= Σ k = 1 s { P ‾ ln ( P ‾ ) + ( 1 - P ‾ ) ln ( 1 - P ‾ ) }
= s { P ‾ ln ( P ‾ ) + ( 1 - P ‾ ) ln ( 1 - P ‾ ) }
下面对部分得分进行研究。假定与方才一样在全部项目中重复的回答sj相等(=s)时,式9的正误的几率可由式15的平均反应几率和
(式21)
Qj(θ)=1- Pj(θ)
置换。于是,
(式22)
l part = Σ j = 1 n s { r j ln ( P ‾ j ( θ ) ) + ( 1 - r j ) ln ( Q ‾ j ( θ ) ) }
从上式中只将有关特定的类似问题j的部分取出,并且由于部分得分r是类似问题j的正误的平均,可有:
(式23)
l part ( j ) = s { Σ k = 1 s x k s ln ( P ‾ ) + ( 1 - Σ k = 1 s x k s ) ln ( 1 - P ‾ ) }
(但是对于正答几率等的添加字j以及θ省略)。于是,其期望值为:
(式24)
E ( l part ( j ) ) = s { 1 s ln ( P ‾ ) × E ( Σ k = 1 s x k ) + ln ( 1 - P ‾ ) × E ( 1 - Σ k = 1 s x k s ) }
= s { 1 s ln ( P ‾ ) × Σ k = 1 s P k + ln ( 1 - P ‾ ) × ( 1 - 1 s Σ k = 1 s P k ) }
= s { P ‾ ln ( P ‾ ) + ( 1 - P ‾ ) ln ( 1 - P ‾ ) }
从式20及24
(式25)
E ( l B ( j ) ) ≅ E ( l part ( j ) )
成立。如果对构成似然的全部的类似项目式25成立,则部分得分的最似然解和由2值数据得到的解可以认为是近似一致的。
另外,以上,本发明的部分得分模型,假如在同一参数的问题或类似参数的问题中重复定义的次数相同的话,已经示出具有与通常的2值的项目反应模型相对应的关系。不过,在现实的应用场面中,全部问题的重复次数相同,即并不限于部分得分的阶段数对任何问题的重复次数都相同。比如,在学力测试中,多半是在开始时有易于利用2值进行评分的项目,在后半则配置利用多值进行评分的困难项目。为了与这种状况相对应,必须对式9进行如下的扩展。
(式26)
l part = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
在这种扩展型部分得分模型中,一般的2值模型的最似然解和式26的解可以认为是近似一致的。
下面对利用2项分布的重复次数sj的推定予以说明。在应用扩展部分得分模型
(式27)
l part ( θ ) = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
的场合,各项目的重复次数sj,只要不能模拟实际上不清楚时多半必须推定。因部分得分的性质的不同,sj的推定也不同,下面予以说明。
第1,对部分得分是多个正误问题的平均值的场合进行考察。在某一问题j的部分得分,是由1组的组问等组成的多个正误2值问题的平均值(即对多个问题的合计分评分结果的场合)时,这些问题的数目,就按照原样成为重复次数sj的推定值。
第2,对部分得分是问卷等的阶段评定的场合进行考察。在问卷中多用的评定尺度的场合,在将阶段数定为m+1时,可推定重复数s为m。比如,如果是在对问题项目为“1.很适用”、“2.稍微适用”、“3.稍微不使用”、“4.完全不适用”4个阶段的进行评定中要求回答时,为了将回答结果作为0~1部分得分处理,在假设各回答为x时,可以变换为(x-1)/3取4个阶段作为部分得分数据进行分析。这与将3个2值项目的得分的和以3相除是相同的。就是说,如果问卷的回答是m+1阶段的评定,可推定2值数据的重复次数sj是m。
第3,对在部分得分不是多个正误2值问题的平均值,而是评分人评定的评分结果中的阶段数比较少的场合进行考察。最简单的sj的推定方法是,如果部分得分r是s+1阶段的得分的话,可以推定本来的2值数据的项目的重复是s。在部分得分模型的考虑中,由于将2值数据的合计除以重复次数的结果是与部分得分r相对应,比如,如果评分人的评价结果是表现为0、0.5、1等3个阶段,则这只不过是将2个2值项目的得分的和除以2。当然,为使这一点成立,有可能发生得分的各阶段之间的等间隔性是必需的。即使是同样的3阶段的部分得分,具有0、0.5、1和0、0.75、1.0的意思是不同的。从部分得分是利用同一总体参数项目的重复产生的这样的假定出发,以重复数2产生后者的模式难以考虑,大概必须假定更大的重复数。比如,可以设想0、0.25、0.5、0.75、1.0的模式,是考虑重复4的场合。
第4,对在部分得分不是多个正误2值问题的平均值,而是评分人评定的评分结果中的阶段数比较多的场合进行考察。如已经叙述过的,在部分得分r是m+1阶段时,为了使其由2值的正误项目构成,必须是重复次数s为m。在阶段数少的场合,可以认为利用前节的推定就可以了,如果阶段数多,发生问题的可能性就高。比如,在100分为满分的测试中,评分人对于除了1人的结果的解答之外,在以每10分进行评分的场合,阶段数为11阶段,重复数为10。不过,假如评分人对余下的1人解答结果评为69分的话,则在其时,如果不使重复数为101,部分得分化变得困难。另外,在得分不限于整数也容许是实数时,在这种考虑方法中,推定重复数变得困难。
为了解决以上的问题,下面在设定若干假定的基础上对重复数进行推定。问题j的部分得分,假定部分得分是借助通过有关该问题的潜在的问题的重复实施产生的正误的平均构成的,正答几率是Pj,误答几率是Qj=1-Pj(以上部分得分的假定)。如果此时固定θ,部分得分R取0,1/m,2/m,…1的几率Pm(R=r|θ)与2项分布
(式28)
P m ( X = x | θ ) = m C x P j x Q j m - x , x = 0,1 , . . . , m
一致。于是,在整个总体中,重复m次部分得分变为r的几率为:
(式29)
Figure A0380137700182
其分布函数为:
(式30)
F(r)=P(R=0)+P(R=1/m)+…+P(R=r)
其中的(θ)是θ的总体分布。此理论分布与从数据得到的经验分布最好一致。因此,理论分布与经验分布的一致度可利用柯尔莫哥洛夫·斯米尔诺夫检验的统计量
(式31)
KS值=max|F(r)-F′(r)|
进行评价。其中的F(r)是理论分布到阶段r为止的分布函数的相对累积频数,F′(r)是经验分布到阶段r为止的相对累积频数。
实际上,为了求出柯尔莫哥洛夫·斯米尔诺夫检验的统计量,不管是理论分布还是经验分布,r都是离散量,并且存在由于在两者,阶段值不一定一致而产生的比较的困难,此处利用如下的方法进行比较。
首先,假定(θ)为标准正态分布。当然,这可根据需要采用设想为θ的总体分布的任意一种。由此,如果进行数值积分,可求得式29,得到其结果式30。R应该取0、1/m、2/m、…、1的m+1个阶段的值,如果假定R潜在地是连续量,比如,第l号的阶段值l/m的频数不外乎是包含在区间 l m - 1 2 m , l m + 1 2 m 的R的频数的反映。因此,与到第l号的阶段值l/m为止的理论分布函数F(l/m)比较的经验分布函数F′(l/m),可以作为部分得分的区间[0,1]内的区间 0 , l m + 1 2 m 的相对累积频数。
在以上的方法中,可以将给出最小的柯尔莫哥洛夫·斯米尔诺夫检验的统计量的阶段数m作为重复数sj的推定值,通过以下的模拟及在实际数据上的应用,可确认此方法的有效性。
第5,对模拟得出的重复数sj的推定法进行研究和叙述。假设问题j的部分得分rj表示为正误2值问题的重复提示得到的正误平均,借助模拟再现,作为重复数sj有4种:sj=5、10、20、40(为了生成一个问题的部分得分数据,要利用5~40个2值问题),生成40个问题3000人量的数据。
上节的重复数sj的推定法,必须给出项目总体。根据因此生成的部分得分数据可同时推定项目总体和能力总体(在此阶段的重复回数sj是1)。
图7a为示出在真的s=5时,对推定的经验分布和理论分布的分布函数之差的最大值(柯尔莫哥洛夫·斯米尔诺夫检验的统计量)重复数3~10时绘出的曲线图。此处,因为成为问题的是重复数大时的事例,重复数s=1、2,因为根本不需要,予以省略(利用2项分布的重复数的推定,最低从s=3起)。从此图可知,在真的重复数5的点上柯尔莫哥洛夫·斯米尔诺夫检验的统计量有最小值。另外,可以看出,在图7b中,示出在s=10,在图7c中,示出在s=20,在图7d中,示出在s=40时任何一个都是真的重复数取最小值。
第6,作为能力检查的应用例,下面介绍利用实际数据的重复数的推定例。示出对英语能力测试中的重复数sj推定的应用例。同一测试是考生9480人,问题数43个项目的数据,由于与长句读解相结合提出多个小问题,5问组存在2组。由两组的小问的正误平均生成部分得分,尝试推定前节的重复数。其结果得出的如图8a及图8b所示。可以看到,两者之中的任何一个都在该群的问题数为5处柯尔莫哥洛夫·斯米尔诺夫检验的统计量为最小值,示出推定的有效性。
上面,对于在利用本发明的计算机适应型测试设计及处理系统中使用的部分得分模型进行了说明。此部分得分模型,是通过对2值的项目反应模型进行修正而得到的。所以,在此部分得分模型中,要推定的参数的数目也与2值模型的场合相同,可以说除了对问题的特性特别关心之时以外,在学力测试的设计及结果处理之际,很少需要利用历来尝试的复杂的多值模型。
如果比较在本发明中使用的部分得分模型和历来公知的阶段反应模型,可了解到以下各点。(1)在项目反应理论中,通常要求数据是2值一维,部分得分模型可应用于多值多维数据;(2)部分得分模型(与其他阶段反应模型及其他多值模型比较)是简明模型,使用者易于理解;(3)因为部分得分模型(与阶段反应模型及其他多值模型不同)一般与广泛利用的2总体逻辑模型为无缝连接,结果的解释也容易,对于2值与多值的混合数据的分析也便利;(4)部分得分模型,与(阶段反应模型及)其他模型比较,模型的参数数目少,在推定时不会产生问题;(5)部分得分模型,因为无论解答(回答)结果如何,如果变换为0至1的部分得分,都可以应用,其应用范围广;(6)部分得分模型,不仅容易应用于测试,也容易应用于问卷数据;(7)部分得分模型,因为即使是解答(回答)的阶段数增加(像阶段反应模型和其他模型那样),模型的参数也不增加,所以容易与评分结果的变更相对应。
另外,本发明的发明人中的一人(藤森),进行了使用部分得分模型的模拟,按照其结果(1)阶段反应模型,在测试为少数项目时,识别力的推定需要偏置,在部分得分模型中不会产生这种现象;(2)正答数得分和能力推定值的排位相关,部分得分模型一方较阶段反应模型更高(在与真的值的相关方面两种模型大致相等)。
以上对于在本发明的测试·系统中采用的部分得分模型的概要进行了说明,下面准备对其要点予以再度确认。在本发明依据的部分得分模型中,将合计分以取和的项目数相除作为0至1之间的部分得分成为输入数据。就是说,将对2值模型的似然的正误使用的虚变量作为表示部分得分的实质的变量或正误几率的权重对待。即使是在这种设想下处理部分得分,理论上也可以保持与现有的2值型的处理的场合的整合性,并且,即使是观察模拟的结果,利用2值数据的场合的似然函数推定结果和利用部分得分模型的似然函数的推定结果实质上可以说是相同的。
下面对上述的部分得分模型在本发明的测试·系统中具体如何应用予以说明。作为具体示例,研究英语能力测试。关于在多项选择型等等解答为正答或误答2值中进行评价的提问,现有型的项目反应理论可适应,利用式4的似然函数LB可推定项目参数和能力值θ。与此相对,在写(作文)和说(会话)的问题中,不是采用正误判断的2值评分,而是执行容许部分分的评分,则可以认为对考生的英语能力的评价可以以分析的方式更精密地进行。在这种场合,不应用以2值评价为前提的现有型的项目反应理论,而是使用上述的部分得分模型。
在部分得分模型中,比如,在对考生对作文问题的解答进行评分时,可以在零分(0)和满分(1)之间以每个为25%的间隔给予部分得分。具体说,就是考虑在式5中rij为可取0、0.25、0.50、0.75、1这样5个值的似然函数来处理部分得分。在定义P的式3中包含的项目参数a(识别力)及b(困难度),是借助利用同一问题预先进行的预测试的数据已经推定的。正如在一般讨论中论及地,在本发明的部分得分模型中,由于是设想将部分得分作为在具有同一参数的问题反复出题的场合的正误的平均而表示的,所以在一个项目(=问题)的内部,对任何部分得分项目参数a及b的值都相同。
作为具体示例,考虑在这种英语作文出题为3题,对某一考生给出的解答的评价分别为0.25、0.75、0.50的场合。在此场合,因为如果包含0和1是利用5个阶段进行评价,重复数为4,考虑似然函数Lpart的对数似然,将部分得分0.25、0.75、0.50代入到式9的rj,可决定下式:
(式32)
l part ( θ ) = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
= 4 [ { ( 0.25 ) ln P 1 ( θ ) + ( 0.75 ) ln Q 1 ( θ ) } +
{ ( 0.75 ) ln P 2 ( θ ) + ( 0.25 ) ln Q 2 ( θ ) } +
{ ( 0.50 ) ln P 3 ( θ ) + ( 0.50 ) ln Q 3 ( θ ) } ]
其中,包含在逻辑曲线P中的项目参数a及b,是对各自的问题预先推定的。利用式32的对数似然,借助最似然推定法及贝叶斯推定法,可推定考生的能力θ。这些方法本身是现在公知的一般的统计学方法,不是本发明的特征。不过,无论是使用哪一种方法,必需的对数似然,都是利用作为本发明的核心的部分得分模型初次得到的。
以上,是部分得分模型的基本的应用例。另外,如果使用部分得分模型,通过设置与这种单纯的示例不同的多个评价基础,采用对一个问题从多个观点进行评价的分析的评价方法,可以提高对考生的能力的推定的精度。比如,在上述的基本的应用例中,有可能使未显在化的考生的能力差明显化。比如,在写的问题中,为进行精度高的评价,可设定如下的5个评价基础:(a)有无达到目的(Goal Achivement);(b)文法(Grammar);(c)词汇(Vocabulary);(d)文体(Style);(e)拼写和标点(Mechanics),而如果是说的问题,可设定如下的5个评价基础:在(a)到(c)之上加上(f)讲话的流畅度(Fluency);(g)发音(Pronunciation)。之所以设定这些评价项目的理由是因为,比如,如果是为作文设定的问题,在对虽然非常笨拙但大致可将笔者的意图传达给读者、语法上没有错误但很不自然而不合乎情况、有明显的语法上的错误、单词的拼写有错、误用类似单词、句子未结束而半截中断、标点用错等等,即使是在仅仅评价一个作文的场合,从不同的多个观点进行评价时,也可以将一个问题看作是由多个小问题构成的,从各个观点可能有不同的评价之故。于是,在这样设定多个评价项目时,通过将一个问题看作是由多个问题构成的,就可能进行比上述基本的应用例的场合更高精度的评价。
在设置如上所述的评价项目的场合,可进行如下的评价。对于有无达到(1)的目的,比如,在每个问题中设定“向对方传达意欲安排住处的意图”这样的目的,对设定的目的以“达到、未达到”的2值(1或0)进行评分。对其以外的评价项目,在0至1之间容许以每个为25%的间隔给予部分得分。就是说,对式5中的rij代入0、0.25、0.50、0.75、1这样5个值。与上述基本应用例一样,包含在似然函数中的逻辑曲线P中的项目参数a(识别力)及b(困难度),也与上述示例一样,是利用同样的问题借助在正式测试之前事先进行的预测试的数据预先推定的。如果利用这种评分方法,通过只出一道英语作文或会话题,就可能进行非常多角度的评价。但是,此处所举出评价项目,只是示例而已,在本发明的测试·系统中,也可以从其他的观点进行评价。
以上是对包含部分得分模型的项目反应理论应用于英语能力测试时推定考生的能力的情况进行的说明,本发明是使用处于与因特网连接环境之中的一般个人计算机实现由包含这种部分得分模型的项目反应理论进行的能力推定的测试·系统及测试方法。下面参照附图对本发明的测试·系统的动作予以说明。
在图1中示出本发明的测试·系统的实施方式1的概要。考生利用设置于借助本发明的系统设计、实施及处理的测试(比如,英语能力测试)的语言学校等之中的与因特网连接环境中的个人计算机相连接的考生单元101,接受测试。如果能恰当地进行考生的认证,也可以在自家中接受测验。由考生经过键盘、鼠标、话筒等输入到作为个人计算机的考生单元101中的解答结果,经过因特网等网络103,发送到评分人单元102,比如,以作为测试对象的英语为母语的评分人容许部分得分,同时进行评分。此时,给出部分得分的评价项目,并不按照问题的难易度而变更。但是,解答结果,一般不是直接从考生单元101发送到评分人单元102,而是在临时发送到集中管理此测试的测试管理服务器104之后,发送到在多个之中判断为合适的评分人单元102。测试管理服务器104,具备问题数据库105。在问题数据库105中,存储作为预测试实施的项目参数(式3的识别力a及困难度b)的预先推定的问题群。测试管理服务器104,如果考生确定,从问题数据库105选择一群问题,并将所选择的问题群发送到考生单元101。
在图2中以框图示出考生单元101的概要。考生单元101,通常,是具有因特网连接环境的一般的个人计算机。输入装置207,是键盘、鼠标、触摸屏等机械的输入装置,声音输入输出装置209,是话筒及扬声器。考生,首先,从输入装置207以手动方式或从声音输入输出装置209以声音,在自己输入本身的ID的同时,指示开始测试。考生的ID,在该考生进行测验申请的登录时,使用从测试管理服务器104对各考生唯一发行的内容。为了安全管理,一般与ID一起还发行密码。通过发行唯一的ID,在同一考生接受多次测验的场合,该点可在测试管理服务器104中识别而进行合适的出题。回应指示,考生对从测试管理服务器104发送、在显示器208上显示的或从包含扬声器的声音输入输出装置209输出的按照自己的水平级选择的问题,通过输入装置207或话筒(声音输入输出装置209)输入解答。解答,特别是,对与容许部分得分的评分变为必需的写和说的提问的解答,经过通信接口202和因特网等的网络103,发送到评分人单元102。但是,如上所述,解答,一般不是直接从考生单元101发送到评分人单元102进行实时评分,而是在临时发送到集中管理此测试的测试管理服务器104之后,发送到在多个之中判断为合适的评分人单元102。在集中一定数目的解答之后评分,从高效评分的经济考虑这是当然的。
在图3中以框图示出评分人单元102的概要。评分人单元102,与考生单元101相同,通常,是具有因特网连接环境的一般的个人计算机。将经过因特网等的网络103从考生单元101或测试管理服务器104发送的解答结果显示于显示器308上,或是从扬声器(声音输入输出装置309)输出,利用键盘及鼠标等输入装置407评分。评分结果,经过因特网等的网络103返送到测试管理服务器104。
在以上说明的实现本发明的测试·系统的实施方式1中,考生单元和评分人单元和测试管理服务器是作为利用因特网等的通信线路的通信网络的通信终端构成的。可是,对本专业领域的人士清楚不过的是利用本发明的测试·系统,作为实施方式2,也可利用不具有通信功能的独立的个人计算机实现。在此场合,存储难易度及识别力预先推定的多数的问题的数据库,比如,是在该个人计算机的硬盘等的存储装置上构筑的,考生,比如,对按照在实施以存放于CD及DVD等的方式提供的本发明的测试的程序中包含的命令出题时的写及说的问题,经键盘和话筒解答。解答结果,临时存储于硬盘等之中,评分人,将该解答结果从硬盘中读出进行任选部分得分的评分。此实施方式2的场合的部分得分的处理方法,与实施方式1的场合相同。如果进行评分,就利用基于部分得分模型的似然函数进行考生的能力推定。
图4为示出利用本发明的测试·系统的测试实施的概要的流程图,特别示出涉及到,按照实施方式1,本发明依据的部分得分模型的有关写和说的测试的实施及处理的过程。另外,在写的问题中,考生,一般是利用键盘(图2中的输入装置207),将英文等的文章以打字的形式解答。在说的问题中,考生借助个人计算机附带的话筒(图3中的声音输入输出装置309),作为对提示的问进行回应,或是以自由的内容输入声音,作为该声音的讲话的内容就成为评价的对象。评分人,在经因特网等的网络与考生现在利用的个人计算机相连接的作为评分人单元的另外的终端之前待机,可进行实时评分,但实际上,考生的解答一般是在存储于测试管理服务器之后发送到评分人单元,对多个解答集中评分。
首先,考生,在考生单元101中访问因特网上的指定的网页。在该网页中,在自己将自身的考生ID和密码输入进行认证之后,通过点击规定的按钮,通知希望开始接受写或说的问题的测验的意图(步骤400)。测试管理服务器104,回应这一通知,从问题数据库105中选择写或说的问题(步骤401)。在此选择之际,可利用根据开始对多项选择式问题的解答的评分结果推定的能力θ的关系,选择包含具有最合适的识别力及困难度的评价项目的问题。比如,在选择写问题之际,可参考对读问题的解答结果,在选择说问题之际,可参考对听问题的解答结果。这是因为可以认为写的能力与读的能力有相关关系,而说的能力与听的能力有相关关系之故。但是,这种选择问题的方式,仅仅是示例而已,不是基于包含本发明的部分得分模型的项目反应理论的测试·系统的本质部分。
包含在与所选择的问题相对应的逻辑曲线中的项目参数,一般是从事先实施的预测试的数据对每个评价项目预先确定的。但是,与能力参数推定的同时,推定项目参数,同时最似然推定等在理论上也是可能的,本发明的测试·系统也不排除与此同时的最似然推定的可能性。在此场合,存储于问题数据库105中的问题的项目参数已经推定的场合和未推定的场合可并存。项目参数的推定,与能力θ的推定相同,是根据使用式5的似然函数的部分得分模型进行的。另外,在推定项目参数之际,也可进行将各个问题的识别力及困难度标准化的称为等化的过程。利用此等化过程,可以进行不受考生的总体左右的绝对评价。不过,等化本身,对于项目反应理论一般是妥当的,并不特别是本发明的特征。
如果利用测试管理服务器104选择了应该出题的问题,则将所选择的问题,经因特网等的网络103发送到考生单元101(步骤402)。发送的问题,如果是文本形式的问题,就显示于显示器208上,如果是声音形式的问题,就由扬声器(声音输入输出装置209)向考生出题(步骤403)。考生,对该出题内容的问题,以打入句子的形式或以发出的声音的形式给出解答(步骤404)。构成解答的文本文件或声音文件,经因特网等的网络103发送到测试管理服务器104临时存储(步骤405)。
以上的过程对一定数目的考生重复进行,将一定数目的解答文件存储于测试管理服务器104中,但是,对这些多个考生出题的问题,并不限定于一样。这是因为根据项目反应理论的一般论,即使是出题的问题不同,能力θ也可以合适地进行推定。如果从评分人单元102访问由测试管理服务器104开设的网页,在为了对蓄积于测试管理服务器104中的解答评分而提出请求希望将其发送时,就向评分人单元102发送一定数量的解答文件。(步骤406)。评分人,利用已经说明的部分得分模型的方法,对解答评分(步骤407)。评分结果,从评分人单元102送回到测试管理服务器104(步骤408)。但是,一般,无论是这样汇总多个解答进行评分,还是实时进行评分,都与本发明的特征无关。
之后,测试管理服务器104,将从评分人单元102接收到的部分得分代入到式5的似然函数中,推定能力θ(步骤409)。在推定结束后,根据需要,将推定的θ的值,换算为适合于与其他测试进行比较的分数(步骤410)。
利用本发明的测试·系统,通过上述的处理,即使是包含历来在一般的项目反应理论中难以处理的容许部分得分的评分的问题的测试,也可以与现有型的项目反应理论进行投射到能力推定。
发明人,为了确认利用本发明的测试·系统的能力推定的有效性,在2003年5月21日至28日期间,对12名被试者的得分的稳定性进行了确认调查。作为方法,是使同一被试者接受连续3次使用本发明的测试·系统的英语能力测试,确认得分是否会发生很大的起伏。此处实时的英语能力测试,是由听说写读4种技能的测试构成的。
被试者,是东京英语比较得意的某大学的大学生12名。假如利用本发明的测试·系统的英语能力评价是合适的,包含等化的各个问题的项目参数的推定在利用本发明的测试·系统中是合适的,则在同一被试者在一日之内接受3次测验的场合,因为可以认为其英语能力在此期间不会变化,结果的分数应该没有大的变动。
结果的详细情况以图5的曲线示出。另外,12名的平均分,如图6所示。个人差分别存在,但在图5及图6中可以观察到,在从第1次到第2次中间由于习惯了试验的形式得分提高(一般称其为“排练效果”),而第3次测验时由于疲劳效果(特别是,在作为最后一次的最后的问题的“说”的得分中可看到)可看到得分降低。
不过,如果观察平均分的话,则在各种技能中250分满分中有5.4至18.5分的得分变动(=2.2%至7.4%),总分的变动幅度也在3%以下。所以,即使是接受不同的问题的测验,在利用本发明的测试·系统中,测试·得分的变动小,适于得分的标准化,可以了解到不会受到总体的能力水平的左右而可以进行绝对评价。
如果设想部分得分表现为具有同一参数的多个项目反复出题的场合的正误的平均,理论上,可以认为式5中的rij是实质上的变量,即使是在0至1之间容许部分得分,在现有型的项目反应理论中的2值的评价中使用的似然函数的场合和推定结果相同这一点是本发明的测试·系统所依据的部分得分模型所提倡的。在图5及图6中示出的实验结果,示出此理论的归结也为实验所确认。
所以,根据本发明的测试·系统,可以在维持和现有型的项目反应理论的整合性的同时,达到比历来更高精度的能力推定。这一点是本发明的显著效果。
在说明书的最后,下面引用本发明的发明者中的一人(藤森)的关于阶段反应模型和部分得分模型的比较的论文(“论项目反应理论的多值数据的分析-阶段反应模型和部分得分模型-”),文中的图及表除外。另外,此论文,在成为本申请的优先权主张的基础的日本专利申请的特愿2002-279513提出申请的平成9月25日的时点尚未发表,其后,发表于文教大学人间科学部的纪要“人间科学研究”24号中(平成14年)。另外,因为此论文,并非只针对学力测试,而是涉及更广泛的应用,所以其中包含与以上的用例不同的地方,使用的不是“问题”而是“项目”,不是“考生”而是“被试者”。
1.研究的目的
在2总体参数逻辑模型(Birnmaum,1968)的一般的项目反应理论中,只能够处理正答、误答这样的2值数据,不能分析多值数据。可是,在心理学的一般研究中,问卷数据等之中利用多值数据的也很多。在项目反应理论中也不是完全不能处理多值数据,已开发了几个分析模型。比如,Samejima(1969)的阶段反应模型(graded response model)、评定尺度模型(rating scale model;Andrich,1978)以及partial creditmodel(Masters,1982)等就是这种的代表。不过,作为现实问题,用于分析的软件环境也还未充分准备好,难说这些模型得到广泛的一般的利用。
鉴于这种状况,在本研究中,藤森(2001)的部分得分模型(partialtest score model)和阶段反应模型的比较是根据模拟及问卷数据的分析结果进行的,关于利用项目反应理论的多值数据的分析方法将进行研讨。
即使是假设项目反应理论适用于多值数据,还必须研究哪一种模型好。因此,(1)对用来进行理论侧面的研讨、模型的总体参数的再现性及能力总体参数的分布等的影响的研讨的(2)模拟的研讨,以及现实数据在何种程度上符合的(3)基于证实的数据的研讨。因此,在本研究中,(1)在第1.3节中,(2)在第2节,(3)在第3节中叙述。
1.1.阶段反应模型
首先对容许m个具有顺序性的阶段反应的Samejima(1969)的阶段反应模型予以说明。此处,只考虑测试的某一个项目。将与被试者的回答的各阶段相对应决定的虚变量作为u,将在比某一阶段低的阶段反应时为0,不是那样时为1的虚变量作为x。在将具有能力θ的被试者成为x=1的几率表示为
(式33)
P u * ( θ ) = P ( X = 1 | θ )
时,
(式34)
P u ( θ ) = P u * ( θ ) - P u + 1 * ( θ )
(式35)
Pu(θ)>0
是阶段反应模型。但是
(式36)
P 0 * ( θ ) = 1
(式37)
P m * ( θ ) = 0
式33是确定阶段的间隔的边界反应曲线,式34是表现阶段的反应几率的阶段反应曲线。只要满足上述条件,式33的函数可以是随便哪一种,假定在本研究中经常使用的2总体参数逻辑模型为:
(式38)
P u * ( θ ) = 1 1 + exp ( - a ( θ - b u ) ) - - - u = 1 , . . . , m - 1
对于式35的条件,a是式38的全部曲线的共通的总体参数,称为识别力。bu是涉及各阶段的阈值的总体参数,称为困难度。就是说,在阶段反应模型中,每个项目保持一个识别力和与各阶段的阈值相对应的m-1个困难度总体参数。
1.2.部分得分模型
在部分得分模型中,在使部分得分为r(0~1的范围)时,用于总体参数推定的对数似然以下式表示:
(式39)
Σ i = 1 N Σ j = 1 n s j { r ij ln ( P j ( θ ) ) ( 1 - r ij ) ln ( Q ij ( θ ) ) }
其中i是被试者,θ是表示其特性值只对总体参数,j是项目,s是2值项目换算的重复数,P是2总体参数逻辑模型,Q=1-P。
就是说,部分得分模型将2总体参数逻辑模型置于其基础之上。另外,设想可对被试者潜在地重复实施保持同一或类似项目总体参数的项目。此时可认为r是重复实施的正误平均。可以证明,这样的部分得分模型与考虑重复实施的2总体参数逻辑模型的最似然解是一致的(在类似总体参数时近似)(藤森,2002a)。
1.3.从理论侧面的研讨
部分得分模型的特征如下(藤森,2002b)。
(1)项目总体参数在识别力和困难度上对于一般的使用者易于理解。(2)模型总体参数的数目与其他多值模型比较更少,在推定上没有问题。(3)因为无论是何种解答/回答结果,如果将值变换为0~1部分得分都适用,应用范围广。(4)也可以很容易适用于问卷的评定尺度。(5)因为即使解答的阶段数增加,总体参数也不增加,评分结果的改变及微调容易对应。(6)因为与2总体参数逻辑模型为无缝连接,因为识别力及困难度总体参数的解释可按照原样与2总体参数逻辑模型同样地进行,对2值和多值的混合数据等之中的运用便利。(7)在通过testlet/组问等的部分得分化在由2值项目组成的组问存在的场合,可以将组问作为一个部分得分项目运用,附带地测试全体的总体参数的数目减少。(8)对残差得分也可再应用模型而与多维数据相对应。
对于(7)和(8)在本研究中未采纳,但作为特征是很大的。
接着,阶段反应模型的特征如下。(1)在项目反应理论中作为与多值数据相对应的模型而著名。(2)发表后经过30年以上的时间还有应用研究报告(比如,野口(1999)等)。(3)存在公开的分析用软件MULTILOG。(4)由于可得到各阶段反应曲线,对一直关心到对各阶段反应的场合很方便。比如,如果利用边界反应曲线的总体参数,对各阶段的反应在θ上的何种水平上发生可以进行预测。
如果比较两个模型,模型化的想法的差异是明显的。可以认为,阶段反应模型,因为模型的总体参数多,与部分得分模型相比较,与数据的适合性也好。当然,如果模型总体参数多,有发生对于总体参数的正确推定必须有数据量等问题的危险。反之,因为部分得分模型单纯,可以认为,可以设想其适合性差,但推定值等的稳定性好。关于这一点,赤池信息量规准AIC等的观点对于评价是必需的。
另外,关于阶段反应模型的第(4)点,在部分得分模型中,在模型上这是困难的。如果进行的话,事后恐怕对每个阶段要生成对被试者的分布进行研讨。项目总体参数,即使是给出,如果是在测试实施前,对被试者的能力分布设置适当的假定,在进行模拟的每个阶段,恐怕都要生成被试者的分布进行研讨。无论如何,与阶段反应模型相比都更费事。
一方面有这一优点,但阶段反应模型(从而迄今为止提出的大部分多值模型也一样),在各阶段中要设置模型总体参数,存在对于阶段变化缺少灵活性的问题。比如,在能力测试中,教师在评分时若是将满分为20分的项目以0、5、10、15、20等粗分为5个阶段进行评价时,就成为5阶段的阶段反应模型的分析。可是,假如对错字掉字等等的答案减1分时,一下子就出现不仅是模型的总体参数的值,而且总体参数的数目本身也会变化的问题。如果将对问卷以5阶段进行评价的项目变成为4阶段的话,在阶段反应模型中,就必须对迄今为止的项目总体参数按照原样利用。
如上所述,任何模型都各有长处和短处,在对各阶段及评定不那末关心,只对项目的整体特性和能力总体参数的推定关心时,可以认为部分得分模型就足够了。
2.关于模拟的研讨
在实际的测试及问卷中回答是由于什么机制产生的不能正确地了解。部分得分模型和阶段反应模型中的哪一个更接近现实,在现在判断很困难。因此,即使是将两个模型的比较进行模拟,在数据生成时,要确定应该按照哪一个模型生成数据是困难的。假定了某一模型生成数据,即使是以该模型和另外的模型进行分析,也不能期待另外的模型会发挥良好的成绩,比较大概也不能很好地进行。因此,在本研究中,以部分得分模型为前提的模拟和以阶段反应模型为前提的模拟两者都进行。各模型对遵照自己的模型的数据和其他模型的数据两者进行分析。当然,实际的数据也可能是由于这两者以外的机制产生的,可以进行两模型的公平比较。就是说,在数据遵照模型的场合,模型的再现性可通过模拟进行研讨,并且在数据不遵照模型的场合,可评价模型的健壮性。
2.1.以部分得分模型为前提的模拟数据
以部分得分模型为前提的模拟数据,以下面的方式生成。首先,假定2总体参数逻辑模型作为部分得分模型的构成要素。此2总体参数逻辑模型的总体参数的分布型以如下方式确定。假定识别力总体参数是按照平均0.65、标准偏差0.25、下限0.3、上限2.0的切断正态分布,而困难度总体参数是按照平均0、标准偏差0.5的正态分布。能力总体参数θ是按照标准正态分布生成的,将由2总体参数逻辑模型预想的正答几率与范围0~1的随机数进行比较,在前者小时,以被试者的反应为正答1,在前者大时为误答0。将按照2总体参数逻辑模型的此2值数据模式作为被试者500、项目数200各重复10回生成(数据1~10)。但是,每5个项目作为同一总体参数。接着,取此数据的同一总体参数的每5个项目的正误的和的平均作为取0、0.2、0.4、0.6、0.8、1.0的5阶段的值的部分得分数据。就是说,部分得分数据,与被试者,2值数据一样是500,项目数为40。同样,将上述的项目总体参数作为给定,追加被试者的能力总体参数θ达500人量生成互相验证用的数据。
2.2.以阶段反应模型为前提的模拟数据
以阶段反应模型为前提的模拟数据,以下面的方式生成。也是假定2总体参数逻辑模型作为阶段反应模型的构成要素。另外,其总体参数的分布形也与0节一样。另外,假定取1至5的值的5阶段为数据的阶段数。因此,由于模型,阶段间的边界反应曲线必需4个。为了确定此曲线群,首先使识别力总体参数按照1个分布发生,以其为各边界反应曲线的共通识别力。接着,生成4个困难度总体参数,选择最小的,作为阶段1和阶段2的边界反应曲线的困难度。以下同样地从困难度小的开始顺序提取而决定各边界反应曲线的困难度。取这些边界反应曲线的差,作为各阶段反应曲线。生成1个遵照标准正态分布的能力总体参数θ,将此值固定并在各阶段反应曲线中在0~1的随机数进入预想的反应几率的区间(固定θ时的全阶段反应曲线的大小的和为1)时,使该反应发生。将以上的过程以500人量反复进行作为推定用的数据。另外,与0节一样,利用上面确定的项目总体参数生成500人量的互相验证用的数据。
2.3.总体参数的推定
总体参数的推定,两个模型都是在项目总体参数和潜在特性值θ利用交互同时最似然推定得到的自做的FORTRAN程序进行的。在利用部分得分模型中,不仅交互同时最似然推定,项目总体参数的周边最似然推定也是可能的,由于阶段反应模型的推定程序只与交互同时最似然推定相对应,考虑比较之便,两模型一起最似然推定项目总体参数(结果省略,但关于部分得分模型周边最似然推定和交互同时推定的结果没有大的差别)。两模型一起都是θ和困难度的推定值定在-3.5~3.5的范围内,识别力的推定值范围为0.02~2.0。
2.4.模拟结果和考察
表1是利用部分得分模型生成的模拟数据(以下称其为部分得分数据)的能力总体参数的真值、正答数得分和利用两模型推定的θ的推定值的相关。但是相关,求出肯德尔(Kendall)排位相关系数(以下在不特别指出的场合都是指肯德尔排位相关)。之所以不是一般经常使用的皮尔逊(Pearson)乘积率相关而是求得排位相关,是因为在项目反应理论的现实的运用场合正答数得分等和推定值的排位的逆转现象成为问题的情况很多之故。从表1可知,与真的θ的相关,无论如何利用部分得分模型得到的推定值一方都很高,但与阶段反应模型的差几乎不存在。与此相比,与正答数的相关,给出差有若干扩大的由部分得分模型得出的推定值高的相关。
另外,关于部分得分模型的项目总体参数的推定值,比如,对数据集1识别力的均方误差(MSE)是0.0014,关于困难度是0.0017,特别是以没有问题的精度得到的推定值。顺便说,因为与成为数据生成的基础的模型的不同,不能判断值的好坏,和阶段反应模型的MSE是0.027,困难度是0.31。但是,关于困难度,利用阶段反应曲线的困难度的推定值平均,计算出MSE。
接着,利用部分得分数据的推定值比较互相认证数据的成绩(表2)。在互相认证中,情况也与前面一样,与真值的相关,任何部分得分数据仅仅略微上升,关于正答数部分得分,示出模型之间的差略微扩大。
此外,利用阶段反应模型生成的模拟数据(以下称其为反应数据)的结果示于表3。另外,根据同一数据推定的项目总体参数应用于互相认证数据的结果示于表4。在任何一个之中与部分得分模型相比阶段反应模型一方和真的θ的相关仅仅略微提高,差不大,也可看到如数据集1,5那样的逆转的情况。另外,整体上真值的相关,比较表1和表2,略微降低,阶段反应模型与部分得分模型相比较,可以说是显示再现性困难的模型。虽然是阶段反应模型,但和正答数得分的相关与阶段反应模型相比,部分得分模型得到的推定值一方变高。并且可知与部分得分数据的场合相比其差扩大。与合计分的排位关系的逆转,在阶段反应模型中变多,产生这一逆转的理由,是在阶段反应模型中,由项目评定的中间部分的阶段反应曲线相对地相当低,利用其他项目的回答结果,该项目的回答,对θ的推定(推定误差的大小姑且不论,对该点推定值的决定)几乎不具有影响力之故。由于这一现象,不仅是阶段反应模型,与对每个多项选择及范畴的反应几率曲线进行模型化的其他多值模型也是共通的,可以认为在利用这些模型之际,必须注意。不用说,既然部分得分模型也是以2总体参数逻辑模型作为基础,合计分和θ的逆转也不得不产生一部分,但其程度可抑制为很低。
下面对阶段反应模型的项目总体参数的推定值予以研讨。比如,对于数据集1识别力的均方误差(MSE)是0.2993,关于困难度是0.0636,可知与部分得分模型的场合相比较推定精度略差。示于表5的项目8,15是数据集1中的推定成绩差的项目,可知在任何真的边界反应曲线互相过于接近的场合不能进行推定。在这种场合,可以考虑必须将2个边界反应曲线作为1个进行处理等的对策,但也存在以何种基准进行等的问题,在本研究中不进行这一点。可以说,在一定的意义上,在使这种对策成为必需的这一点上存在阶段反应模型的问题点。另外,模型不同的部分得分模型的识别力的均方误差(MSE)是0.0136,可以给出比阶段反应模型更好的推定值。但因为关于阶段反应模型的项目总体参数的推定,在周边最似然推定中保留有改善成绩的可能性,此处除此之外不予讨论,将在另外的研究中报告。
如对以上进行总结,在本研究的模拟的条件下,部分得分数据,阶段反应数据的任何一个,与真值的相关,利用哪一个模型都不会产生大的差别。与此相对,与正答数得分的相关,很明显部分得分模型一方是好成绩,特别是与预期相反在阶段反应数据中差变大。另外,在项目总体参数多的阶段反应模型中不会产生令人恐惧的互相认证中的不合适(但总体参数推定上的问题保留)。这是一方面,而本研究是不会特别使噪音传播的单纯的模拟这一点也许有影响。
3.问卷数据的研讨
3.1.问卷数据及总体参数的推定
在本研究中,作为分析的对象的数据,是○县的青少年基本调查中的中高生1849人的数据,是关于教师和学生的心理距离调研的9个项目的尺度(表6)。各项目以从“1.很适用”到“4.根本不适用”4个阶段进行评价而求得,对9个项目一起的回答的处理,值越小,心理距离越小。在部分得分模型中,为了将此数据处理成为0~1的部分得分,在使各回答结果成为x时,通过变换为r=(x-1)/3,成为取“0、1/3、2/3、1”4个阶段的部分得分数据。另外,推定方法,是与模拟方法同样的方法。另外,关于本调查的详细情况可参照木原等(1997)。
3.2.问卷数据的结果和考察
阶段反应模型的识别力与部分得分模型相比较,整体上提高(表7)。与此类似的现象在将数据2值化在通常的2总体参数逻辑模型中进行分析的场合也会产生。比如,在4阶段评定的场合,2值化实质上是由于将阶段2置换为1,将阶段3置换为4而发生的现象。表7的“2值模型”是这种数据变换的结果。可以看到,与部分得分模型相比较,识别力略微提高。这种现象的发生,在将图1的项目4的群别的平均回答结果在4值和2值的场合进行比较一下的话,就可以很好地理解。但在作图时,是将4值2值任何一个场合的全部回答变换为0~1的范围。多值数据的2值化对识别力的推定值有很大影响这一点从图中可得到理解。此外,由于边界反应曲线实质上是根据将多值的回答2值化而得到的数据进行定义和推定的,此2值化和类似的现象有产生的可能性。然而,在模拟的结果中,部分得分模型的识别力和阶段反应模型的识别力的推定值没有很大的差异,在以2值化(为)原因这一点上还有些疑问。
作为一种可能性,还有测试项目数的差别。在模拟中是40项,而在本问卷中是9项,这一差别可能有影响。因此,追加一个模拟。只取阶段反应数据的数据集1的开始的10项目,在利用阶段反应模型求得交互同时推定值时,识别力的值如表8所示。可见,很明显存在着如果项目数减少,则识别力变大的倾向(MSE=0.2647)。即使很明确在阶段反应模型中,在少数项目中的识别力的推定需要偏置,其原因是存在于模型中,还是推定方法有问题是必须区别的。就是说,如果不是阶段反应模型本身,也有可能是同时最似然推定这一方法对推定有坏的影响(众所周知同时最似然推定导致的项目总体参数的推定值不具有一致性)。因此,利用MULTILOG(Thissen,1991)计算出周边最似然推定值,偏置几乎不改变(MSE=0.2558)。这一点显示,与其说是推定法的问题,也许不如说是模型的问题。另外,从表8,项目7,刚一看同时最似然推定的识别力极端低,反之MULTILOG的推定值似乎可得到妥当的值,但实际上MULTILOG在困难度上为异常的推定值,不能顺利地进行推定这一点没有改变。因此,从MSE计算中除外同项目。
在利用部分得分数据集1的10项目的部分得分模型的分析中,交互同时推定的MSE,识别力是0.0094,困难度是0.0007,在周边最似然推定中,识别力为0.0032,困难度为0.0014(表9)。可以说,在同模型中,交互同时推定、周边最似然推定都不认这一偏置。在表10中示出,问卷数据由两模型进行分析,利用周边最似然推定的推定值。从同一表可知,与模拟一样,利用周边最似然推定,在阶段反应模型中,识别力也可增大。
在阶段反应模型中,在少数项目中,关于识别力需要上方偏置一事,因为需要慎重的研讨,对此将在另外的研究中进行,此处根据表7的同时最似然推定的结果进行研讨。在图2中,示出项目1的部分得分模型的项目反应曲线,并且在图3中示出阶段反应模型的反应曲线。求出判定结果的合计分和两模型的θ的肯德尔的排位相关时,可得到与阶段反应模型的相关为0.9104,而与部分得分模型的相关为0.9424(去掉未回答的问卷,只以1588人算出的)。部分得分模型一方与合计分相关略高,对其应用再现和模拟的结果一致。相关的值,与由阶段反应模型的模拟结果得到的两模型的相关接近,只靠这一点恐怕不能确定本数据是按照阶段反应模型发生的。其理由可以举出的有,比如,可以预想,在生成模拟数据之际,如果加上多维性等等的影响,不仅真值和推定值的相关,与正答数(在问卷的场合为合计分)的相关也会降低。
本节的数据,由于是实际调查,因为真值不明,很难确定哪一个模型好。然而,在阶段反应模型中与合计分的相关低这一点,如果对排位的逆转是予以充分说明的就很好,由于不是一看就可以了解其特性的,最好考虑到对模型的使用者而言在利用之际难以容纳逆转现象。无论如何,从模拟的结果(在接近模拟的条件的场合)可以想象,在推定真的θ值这一点上,大的差不是两模型。然而,关于在少数项目的场合的阶段反应模型的推定值的偏置带来什么影响这一点,大概还需要稍微进行研讨。无论如何,作为项目特性,在识别力及项目困难度以外没有很大关心的场合,即在回答的各阶段的困难度等没有特别关心的场合(利用问卷的很多研究与此相当),恐怕可以说与复杂而且必须推定多个总体参数的阶段反应模型相比较,简单的部分得分模型一方大概可以说更适合。自然,保持对各个阶段的反应的关心的场合并不受此限制。
                       文献
Andrich,D 1978 A rating formulation for ordered responsecategories.Psychometrika,43,561-573.
Birnmaum,A.1968 Some latent trait models and their use ininferring an examinee′s ability.In F.M.Lord&M.R.Novick(Eds.),Statistical theories of mental test scores(pp.395-479).Reading,MA:Addison-Wesley.
木原孝博·田中治彦·藤森進1997中学生·高校生の学校不適応に関する研究岡山県青少年基本調查(1994)に基づく分析岡山大学教育学部研究集録,104,105-122.
藤森道2001項目反応理論にぉける部分得点の处理につぃて日本教育心理学会第43回総会凳表論文集,394.
藤森進2002a項目反応理論にぉけるテストの部分得点の处理方法につぃて未凳表論文.
藤森進2002b部分得点モテルとその応用第1回心理测定研究会.
Masters,G.N.1982 A Rasch model for partial credit scoring.Psychometrika,47,149-174.
野口裕之1999適応型テストへの応用:CAT方式にょる識别性検查(渡辺直登·野口裕之编著「組織心理測定論」第8章白桃書房).
Samejima,F.1969 Estimation of latent ability using aresponse pattern of graded scores.PsychometrikaMonograph,No.17.
Thissen,D 1991 Multilog user′s guide.Chicago,IL:Scientific Software.

Claims (9)

1.一种测试·系统,是一种其构成包括具有输入装置和输出装置的第1计算机;具有经过包含因特网的网络与上述第1计算机相连接的输入装置和输出装置的第2计算机;经过上述网络与上述第1及第2计算机相连接的测试管理服务器;以及可从上述管理服务器访问的存储有包含预先推定难易度和识别力的项目参数的多个问题的问题数据库;对一个考生提出n问的问题,从上述考生对提出的n问的问题的反应推定上述考生的能力θ的测试·系统,
其特征在于上述测试管理服务器的构成包括:
回应从上述第1计算机发送的请求,在对1≤j≤n的问题j的满分设定为1时,从上述问题数据库选择可以容许以0≤rj≤1的部分得分rj的方式进行评分的n问的问题并发送到上述第1计算机的装置;
存储对于从上述问题数据库选择并发送到上述第1计算机的问题从上述第1计算机返回的解答的解答存储装置;
回应从上述第2计算机发送的请求,读出由上述解答存储装置存储的解答并发送到上述第2计算机的装置;
从上述第2计算机接收并存储对于发送到上述第2计算机的解答给予的部分得分rj的部分得分存储装置;以及
利用上述部分得分存储装置存储的部分得分rj和存储在上述问题数据库中的问题j的项目参数,推定获得该部分得分rj的考生的能力θ的能力推定装置,
在上述能力推定装置中,Pj(θ)是在设想部分得分rj作为问题j所固有的,在上述考生对取得正答1或误答0中的任何一个的潜在的反应的潜在的问题重复sj次时,上述考生可潜在地取得的正误反应的平均值的场合,上述考生正确回答上述潜在的问题的几率,在Qj(θ)为1-Pj(θ)时,利用由下式表示的对数似然lpart(θ)
(式40)
l part ( θ ) = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
推定考生的能力θ。
2.如权利要求1所述的测试·系统,其特征在于上述Pj(θ)是利用2参数逻辑模型表示的:
(式41)
P j ( θ ) = 1 1 + exp ( - Da j ( θ - b j ) ) .
此式1中的aj和bj分别是存储于上述问题数据库中的作为问题所固有的特性的识别力和困难度,D是等于1.7的常数。
3.如权利要求2所述的测试·系统,其特征在于在对实际观测到的问题j的部分得分rj是由显在的多个正误问题的平均构成的场合,这些正误问题的正答几率由式41表示,利用式40推定考生的能力θ。
4.如权利要求1至3中任何一项所述的测试·系统,其特征在于其构成还包括在假定实施测试的集团的能力分布之上,对作为sj次的正误的和的2项分布和假设的能力分布的积以能力的维数进行积分而求出部分得分的理论分布函数,使求出的理论分布函数和实际的数据的部分得分的经验分布函数的一致性最好的对作为潜在的问题的重复次数的sj进行推定的装置。
5.如权利要求1至4中任何一项所述的测试·系统,其特征在于其构成还包括在上述第1及第2计算机的上述输出装置和输入装置分别包含声音输出装置和声音输入装置,向上述测试服务器发送并存储的解答包含声音数据。
6.一种测试·系统的控制方法,是一种其构成包括具有输入装置和输出装置的第1计算机;具有经过包含因特网的网络与上述第1计算机相连接的输入装置和输出装置的第2计算机;经过上述网络与上述第1及第2计算机相连接的测试管理服务器;以及可从上述管理服务器访问的存储有包含预先推定难易度和识别力的项目参数的多个问题的问题数据库;对一个考生提出n问的问题,从上述考生对提出的n问的问题的反应推定上述考生的能力θ的测试·系统的控制方法,
其特征在于上述测试管理服务器的构成包括:
(1)回应从上述第1计算机发送的请求,在对1≤j≤n的问题j的满分设定为1时,从上述问题数据库选择可以容许以0≤rj≤1的部分得分rj的方式进行评分的n问的问题并发送到上述第1计算机的步骤;
(2)存储对于从上述问题数据库选择并发送到上述第1计算机的问题从上述第1计算机返回的解答的解答存储步骤;
(3)回应从上述第2计算机发送的请求,读出在上述步骤(2)中存储的解答并发送到上述第2计算机的步骤;
(4)从上述第2计算机接收并存储对于发送到上述第2计算机的解答给予的部分得分rj的部分得分存储步骤;以及
(5)利用上述部分得分存储装置存储的部分得分rj和存储在上述问题数据库中的问题j的项目参数,推定获得该部分得分rj的考生的能力θ的能力推定步骤,
在上述步骤(5)中,Pj(θ)是在设想部分得分rj作为问题j所固有的,在上述考生对取得正答1或误答0中的任何一个的潜在的反应的潜在的问题重复s次时,上述考生可潜在地取得的正误反应的平均值的场合,上述考生正确回答上述潜在的问题的几率,在Qj(θ)为1-Pj(θ)时,利用由下式表示的对数似然lpart(θ)
(式42)
l part ( θ ) = Σ j = 1 n s j ( r j ln ( P j ( θ ) ) + ( 1 - r j ) ln ( Q j ( θ ) ) )
推定考生的能力θ。
7.如权利要求6所述的方法,其特征在于上述Pj(θ)是利用2参数逻辑模型表示的:
(式43)
P j ( θ ) = 1 1 + exp ( - Da j ( θ - b j ) )
此式43中的aj和bj分别是存储于上述问题数据库中的作为问题所固有的特性的识别力和困难度,D是等于1.7的常数。
8.如权利要求7所述的方法,其特征在于在对实际观测到的问题j的部分得分rj是由显在的多个正误问题的平均构成的场合,这些正误问题的正答几率由式43表示,利用式42推定考生的能力θ。
9.如权利要求6至8中任何一项所述的方法,其特征在于其构成还包括:
(6)在假定实施测试的集团的能力分布之上,对作为sj次的正误的和的2项分布和假设的能力分布的积以能力的维数进行积分而求出部分得分的理论分布函数,使求出的理论分布函数和实际的数据的部分得分的经验分布函数的一致性最好的对作为潜在的问题的重复次数的sj
CNA038013770A 2002-09-25 2003-09-25 测试系统及其控制方法 Pending CN1578972A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002279513 2002-09-25
JP279513/2002 2002-09-25

Publications (1)

Publication Number Publication Date
CN1578972A true CN1578972A (zh) 2005-02-09

Family

ID=32040459

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA038013770A Pending CN1578972A (zh) 2002-09-25 2003-09-25 测试系统及其控制方法

Country Status (7)

Country Link
US (1) US7103508B2 (zh)
JP (1) JP3645901B2 (zh)
KR (1) KR100747141B1 (zh)
CN (1) CN1578972A (zh)
AU (1) AU2003266616A1 (zh)
GB (1) GB2409314A (zh)
WO (1) WO2004029906A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942993A (zh) * 2014-03-17 2014-07-23 深圳市承儒科技有限公司 一种基于irt的自适应在线测评系统及其方法
CN104505089A (zh) * 2014-12-17 2015-04-08 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
CN106462908A (zh) * 2014-12-25 2017-02-22 学校法人产业能率大学 维护管理指标计算装置以及维护管理指标计算方法
CN106682768A (zh) * 2016-12-08 2017-05-17 北京粉笔蓝天科技有限公司 一种答题分数的预测方法、系统、终端及服务器
CN107851398A (zh) * 2015-04-03 2018-03-27 卡普兰股份有限公司 用于自适应评估和训练的系统及方法
CN108921434A (zh) * 2018-07-04 2018-11-30 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872214B2 (ja) * 2005-01-19 2012-02-08 富士ゼロックス株式会社 自動採点装置
JP4628121B2 (ja) * 2005-02-02 2011-02-09 株式会社ワオ・コーポレーション 情報処理装置およびプログラム
US20070111182A1 (en) * 2005-10-26 2007-05-17 International Business Machines Corporation Method and system for distributing answers
JP2007279306A (ja) * 2006-04-05 2007-10-25 Nagaoka Univ Of Technology 項目応答理論におけるパラメータ推定方法
US20080046232A1 (en) * 2006-08-18 2008-02-21 Jan Groppe Method and System for E-tol English language test online
JP5029090B2 (ja) * 2007-03-26 2012-09-19 Kddi株式会社 能力推定システムおよび方法ならびにプログラムおよび記録媒体
US8376755B2 (en) * 2008-05-09 2013-02-19 Location Inc. Group Corporation System for the normalization of school performance statistics
JP5609193B2 (ja) * 2010-03-19 2014-10-22 富士通株式会社 試験プログラム、試験装置、および試験方法
US8761658B2 (en) * 2011-01-31 2014-06-24 FastTrack Technologies Inc. System and method for a computerized learning system
US20120329029A1 (en) * 2011-06-23 2012-12-27 Rauta Mihai Catalin Computer implemented teaching method and apparatus
US20130157245A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Adaptively presenting content based on user knowledge
KR101311036B1 (ko) * 2012-02-09 2013-09-24 이언주 라쉬 모형과 순차적 확률비 검증법을 이용한 유비티 시스템
KR101616909B1 (ko) * 2012-10-31 2016-04-29 에스케이텔레콤 주식회사 자동 채점 장치 및 방법
TWI485668B (zh) * 2013-01-24 2015-05-21 Univ Fooyin 拼字學習電腦程式、內儲程式之電腦可讀取記錄媒體及內儲程式之可攜式電子裝置
US20140295400A1 (en) * 2013-03-27 2014-10-02 Educational Testing Service Systems and Methods for Assessing Conversation Aptitude
KR20160031005A (ko) * 2013-07-16 2016-03-21 가부시키가이샤 베네세 코포레이션 휴대형 정보 처리 장치, 테스트 지원 시스템 및 테스트 지원 방법
JP6408467B2 (ja) * 2013-07-19 2018-10-17 株式会社ベネッセコーポレーション 情報処理装置、情報処理方法及びプログラム
US10706734B2 (en) * 2013-12-06 2020-07-07 Act, Inc. Methods for improving test efficiency and accuracy in a computer adaptive test (CAT)
US20150279226A1 (en) * 2014-03-27 2015-10-01 MyCognition Limited Adaptive cognitive skills assessment and training
JP6247628B2 (ja) * 2014-12-09 2017-12-13 株式会社日立製作所 学習管理システムおよび学習管理方法
US10699271B2 (en) * 2015-01-31 2020-06-30 Usa Life Nutrition Llc Method and apparatus for advancing through a deck of digital flashcards
EP3324254A1 (de) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung
WO2020065663A1 (en) * 2018-09-25 2020-04-02 Merittrac Services Pvt. Ltd Methods and systems for partial credit model (pcm) scoring in classical test theory (ctt)
KR102015075B1 (ko) * 2018-10-16 2019-08-27 (주)뤼이드 학습 효율을 기반으로 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 방법, 장치 및 컴퓨터 프로그램
US11102530B2 (en) 2019-08-26 2021-08-24 Pluralsight Llc Adaptive processing and content control system
US11295059B2 (en) 2019-08-26 2022-04-05 Pluralsight Llc Adaptive processing and content control system
US20210343175A1 (en) * 2020-05-04 2021-11-04 Pearson Education, Inc. Systems and methods for adaptive assessment
JP7371644B2 (ja) * 2021-02-01 2023-10-31 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) * 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
JP2002006734A (ja) * 2000-06-26 2002-01-11 Society For Testing English Proficiency Inc コンピュータ適応型検定試験の方法及びシステム
JP3687785B2 (ja) * 2001-08-15 2005-08-24 株式会社日本統計事務センター 採点処理方法および採点処理システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942993A (zh) * 2014-03-17 2014-07-23 深圳市承儒科技有限公司 一种基于irt的自适应在线测评系统及其方法
CN104505089A (zh) * 2014-12-17 2015-04-08 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
CN106462908A (zh) * 2014-12-25 2017-02-22 学校法人产业能率大学 维护管理指标计算装置以及维护管理指标计算方法
CN106462908B (zh) * 2014-12-25 2020-06-19 学校法人产业能率大学 维护管理指标计算装置以及维护管理指标计算方法
CN107851398A (zh) * 2015-04-03 2018-03-27 卡普兰股份有限公司 用于自适应评估和训练的系统及方法
CN106682768A (zh) * 2016-12-08 2017-05-17 北京粉笔蓝天科技有限公司 一种答题分数的预测方法、系统、终端及服务器
CN108921434A (zh) * 2018-07-04 2018-11-30 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法
CN108921434B (zh) * 2018-07-04 2020-08-14 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法

Also Published As

Publication number Publication date
WO2004029906A1 (ja) 2004-04-08
GB2409314A (en) 2005-06-22
AU2003266616A1 (en) 2004-04-19
KR100747141B1 (ko) 2007-08-07
US7103508B2 (en) 2006-09-05
JPWO2004029906A1 (ja) 2006-01-26
US20050256663A1 (en) 2005-11-17
GB0507837D0 (en) 2005-05-25
KR20050042743A (ko) 2005-05-10
JP3645901B2 (ja) 2005-05-11

Similar Documents

Publication Publication Date Title
CN1578972A (zh) 测试系统及其控制方法
Magnuson et al. Preschool and school readiness of children of immigrants
Watzinger‐Tharp et al. Linguistic performance of dual language immersion students
CN1487444A (zh) 文本语句比较装置
CN1647136A (zh) 电子学习系统
Stebbing et al. What Academics Really Think about Information Literacy.
CN101077307A (zh) 生物器官功能模拟系统
Gorhan et al. Tablets in education: Outcome expectancy and anxiety of middle school students.
Chandran et al. Evaluating the performance of medical educators: a novel analysis tool to demonstrate the quality and impact of educational activities
Sosa Neira et al. Factors That Facilitate or Limit the Incorporation of Emerging Technologies in the Classroom.
Dharmanegara et al. The Role of Entrepreneurial Self-Efficacy in Mediating the Effect of Entrepreneurship Education and Financial Support on Entrepreneurial Behavior
Stelios et al. Teaching Professional Integrity: An Empirical Study on Engineering Students.
Siregar Assessing the Vulnerability of the Betawi Language: A Multidisciplinary Approach toward Preservation amidst Rapid Urbanization
Busch et al. Bothered bloggings and troubled tweets: Constructions of stress and concerns for early-career academics
Wärnsby et al. Building interdisciplinary bridges
Yahya et al. Contributions of Innovation and Entrepreneurship Education to Entrepreneurial Intention with Entrepreneurial Motivation as an Intervening Variable in Vocational High School Students
Christie et al. The language of evaluation theory: Insights gained from an empirical study of evaluation theory and practice
JP2005331615A (ja) 文章評価装置および文章評価方法
Christensen Fluency features and elicited imitation as oral proficiency measurement
Retnowati et al. Digital Leadership, Culture & Employee Capabilities: Sustainable Organizational Performance in Education-A Case Study
Strik et al. UNIVERSITY AND SPIN-OFF CROSS-FERTILIZATION ON INNOVATIVE EDUCATIONAL RESEARCH
Sánchez-Santamaría et al. Xin Liu1*, Martin Valcke1, Kajsa Yang Hansen2 and Jan De Neve3
Khidhir et al. The Role of Feedback Comments on Online Posts in Learning English Vocabulary and Phrasal Expressions
Armor et al. School Resources, the Achievement Gap, and the Law: Reconsidering School Finance, Policies, and Resources in US Education Policy
McFann-Mora The relationship between English learning and achievement on the state assessment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1073007

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: CO., LTD. BENESSE CORPORATION

Free format text: FORMER OWNER: CO., LTD. BENESSE STOCK COMPANY

Effective date: 20100526

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20100526

Address after: Okayama

Applicant after: BENESSE CORPORATION

Co-applicant after: Teng Senjin

Address before: Okayama

Applicant before: Times life Holding Company Limited

Co-applicant before: Teng Senjin

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20050209

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1073007

Country of ref document: HK